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Beschreibung 

[0001] Die Erfindung betrifft ein Verfahren zur auto- 
matischen Steuerung eines Oder mehrerer Gerate 
durch Sprachkommandos Oder per Sprachdialog im 5 
Echtzeitbetrieb gemaG Oberbegriff des Patentan- 
spruchs 1 sowie eine Vorrichtung zum Ausfuhren des 
Verfahrens gemaG Oberbegriff des Patentanspruchs 
46. 

[0002] Verfahren bzw. Vorrichtungen dieser Art wer- n> 
den allgemein in sogenannten Sprachdialog- bzw. 
Sprachbediensystemen z.B. fur Fahrzeuge, Computer 
Roboter, Maschinen, Anlagen usw. eingesetzt 
[0003] Ein Sprachdialogsystem (SDS) laGt sich i.a. 
auf folgende Komponenten reduzieren: 15 

• Spracherkennungssystem, das ein eingesproche- 
nes Kommando ( n Sprachkomnnando ,, ) mit anderen 
erlaubten Sprachkommandos vergleicht und eine 
Entscheidung trifft, welches Kommando aller Wahr- 20 
scheinlichkeit nach eingesprochen wurde, 

• Sprachausgabe, die die zur Benutzerfiihrung erfor- 
derlichen Sprachbefehle und Signalisierungstone 
ausgibt und ggf. das Erkennergebnis riickmeldet, 

• Dialog- und Ablaufsteuerung, urn dem Benutzer zu 25 
verdeutlichen, welche Art von Eingabe erwartet 
wird, bzw. urn zu prufen, ob die erfolgte Eingabe 
konsistent ist mit der Aufforderung und mit dem mo- 
mentanen Status der Applikation, und urn die resul- 
tierende Aktion bei der Applikation (z.B. dem zu 30 
steuernden Gerat) anzustoGen, 

• Kontrollinterface als Schnittstelle zur Applikation: 
Dahinter verbergen sich Hard- und Softwaremodu- 
le, urn verschiedene Aktuatoren bzw. Rechner an- 
zusteuern, die die Applikation beinhalten, 35 

• Applikation, die per Sprache angesteuert wird: 
Das kann z.B. ein Bestell- Oder Auskunftsystem, ein 
CAE-Arbeitsplatz oder ein behindertengerechter 
Rollstuhl sein. 

40 

[0004] Die vorliegende Beschreibung konzentriert 
sich - ohne Einschrankung auf die allgemeine Anwend- 
barkeit der geschilderten Verfahren, Vorrichtungen und 
Ablaufe - auf die Spracherkennung, die Dialogstruktur 
sowie auf eine spezielle Applikation in Kraftfahrzeugen. 45 
[0005] Die Schwierigkeiten bei bisher bekannten L6- 
sungen liegen 

a) in der Notwendigkeit, ein aufwendiges Training 
durchzufuhren, urn das System auf die Charakteri- so 
stik des jeweiligen Sprechers Oder auf einen wech- 
selnden Wortschatz anzupassen. Die Systeme sind 
entweder vollstandig sprecherunabhangig oder 
vollstandig sprecherabhangig bzw. sprecheradap- 
tiv, wobei letztere fur jeden neuen Benutzer einen 55 
Trainingslauf erfordern. Dies kostet Zeit und redu- 
ziert den Bedienkomfort bei haufig wechselnden 
Sprechern sehr stark. Ausdiesem Grund ist bei her- 



kommlichen Systemen auch der Vokabularumfang 
gering bei Applikationen, wo mit wechselnden 
Sprechern und Zeitnot der einzelnen Sprecher zu 
rechnen ist, 

b) in dem unzureichenden Bedienkomfort, der darin 
zum Ausdruck kommt, daG 

- das Vokabular auf ein Minimum begrenzt ist, 
urn hohe Erkennsicherheit zu garantieren, 
die Einzelworte eines Kommandos isoliert (d.h. 
mit Zwischenpausen) eingegeben werden, 
Einzelworte quittiert werden mussen, urn Feh- 
ler zu erkennen, 

- mehrstufige Dialoghierarchien abzuarbeiten 
sind, urn vielfaltige Funktionen zu steuern, 

- ein Mikrofon in die Hand zu nehmen ist bzw. ein 
Headset (Kombination aus Kopfhorer und Lip- 
penmikrofon) getragen werden muG, 

c) in der fehlenden Robustheit 

gegeniiber Bedienfehlern 

- gegeniiber storenden Umgebungsgerau- 
schen, 

d) in der aufwendigen und teueren Hardware-Rea- 
lisierung, vor allem bei mittleren und kleinen Stuck- 
zahlen. 

[0006] Die Aufgabe der Erfindung besteht darin, zum 
einen ein Verfahren anzugeben, mit dem mit moglichst 
geringem Aufwand ein oder mehrere Gerate durch 
Sprachkommandos oder per Sprachdialog zuverlassig 
im Echtzeitbetrieb gesteuert bzw. bedient werden kon- 
nen. Ferner soil eine geeignete Vorrichtung angegeben 
werden, mit der das zu schaffende Verfahren ausgefuhrt 
werden kann. 

[0007] Die erf indungsgemaGe Losung der Aufgabe ist 
in bezug auf das zu schaffende Verfahren durch die 
Merkmale des Patentanspruchs 1 und in bezug auf die 
zu schaffende Vorrichtung durch die Merkmale des Pa- 
tentanspruchs 46 wiedergegeben. Die ubrigen Anspru- 
che enthalten vorteilhafte Aus- und Weiterbildungen 
des erfindungsgemaGen Verfahrens (Anspruche 2 bis 
45) sowie der erfindungsgemaGen Vorrichtung (Anspru- 
che 47 bis 58). 

[0008] Der wesentliche Vorteil der Erfindung ist darin 
zu sehen, daG mit relativ geringem Aufwand eine zuver- 
lassige Steuerung bzw. Bedienung von Geraten per 
Sprachkommando bzw. per Sprachdialog im Echtzeit- 
betrieb moglich ist. 

[0009] Ein weiterer wesentlicher Vorteil ist darin zu 
sehen, daG eine der naturlichen Sprechweise weitge- 
hend angepaGte Eingabe der Sprachkommandos bzw. 
Fuhrung des Sprachdiaiogs mit dem System moglich ist 
und daG dem Sprecher hierfur ein umfangreiches Voka- 
bular von zulassigen Kommandos zur Verfiigung steht. 
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[0010] Ein dritter Vorteil ist darin zu sehen, daG das 
System fehlertolerant arbeitet und in einer vorteilhaften 
Weiterbildung der Erfindung z.B. auch nichtzulassige 
Worter, Namen, Laute Oder Wortumstellungen in den 
vom Sprecher eingegebenen Sprachkommandos i.a. 
als solche erkennt und aus diesen eingegebenen 
Sprachkommandos von dem Sprecher an sich gewollte 
zulassige Sprachkommandos extrahiert. 
Im folgenden wird die Erfindung anhand der Figuren na- 
her erlautert. Es zeigen 



FIG. 1 



FIG. 2 



FIG. 3 



das Blockschaltbild einer bevorzugten 
Ausfuhrungsform der erfindungsge- 
maGen Vorrichtung zum AusfCihren 
des erfindungsgemaGen Verfahrens 
("Sprachdialogsystem"), 

eine detaillierte Darstellung des ei- 
gentlichen Sprachdialogsystems ge- 
maG FIG. 1, 

das FluGdiagramm zu einer bevorzug- 
ten Ausfuhrungsform der Segmentie- 
rung der eingegebenen Sprachkom- 
mandos fur ein Sprachdialogsystem 
gemaG FIG. 2, 



FIG. 4 und 5 



FIG. 6 



Ausfuhrungsbeispiele 
Markov-Modellen, 



von Hidden- 



FIG. 7 



FIG. 8 



FIG. 9 und 10 



den hardwaremaGigen Aufbau eines 
bevorzugten Ausfiihrungsbeispiels 
des Sprachdialogsystems gemaG 
FIG. 2, 

das Zustandsdiagramm fur die An- 
wendung des Sprachdialogsystems 
gemaG FIG. 2 zur sprachgesteuerten 
Bedienung eines Telefons, 

das FluGdiagramm zur Bedienung ei- 
nes Telefons gemaG FIG. 7, 

das FluGdiagramm zur Funktion "Na- 
menswahl" (FIG. 9) bzw. "Nummern- 
wahl" (FIG. 10) bei der Bedienung ei- 
nes Telefons gemaG FluGdiagramm 
nach FIG. 8. 



[001 1 ] Das im folgenden beschriebene Sprachdialog- 
system (SDS) 1 in FIG. 1 umfaGt die Komponenten 
Spracheingabe (symbolisch dargesteiltdurch ein Mikro- 
fon 2), Spracherkennung, Dialog- und Ablaufsteuerung, 
Kommunikations- und Kontrollinterface, Sprachausga- 
be (mit angeschlossenem Lautsprecher 3) sowie (bei- 
spielhaft) eine Applikation, d.h. ein durch das SDS zu 
steuerndes bzw. zu bedienendes Gerat. SDS und Ap- 
plikation bilden zusammen ein Sprachbediensystem 



15 



20 



(SBS), das in Echtzeit ("on-line") betrieben wird. 
[001 2] Die Syntax- und Dialogstruktur und die fur alle 
Benutzer/ Sprecher verbindlichen Basissprachkom- 
mandos werden "off-line" auGerhalb des SDS bzw. SBS 
5 (beispielhaft) mit Hilfe einer PC- Workstation im "off-line 
Dialog Editormodus" 4 erstellt und fixiert und zusammen 
mit vorzugebenden Parametern und Ablaufstrukturen 
dem SDS bzw. SBS vor Inbetriebname in Form von Da- 
tenfiles ubergeben. 
10 [0013] Das SDS 1 der FIG. 1 ist in FIG. 2 im Detail 
dargestellt. Ein (nicht gezeigtes) Mikrofon ist mit einem 
Analog/Dig ital-Wandler verbunden, der uber Vorrich- 
tungen zur Echokompensation, Gerauschreduktion und 
Segmentierung mit einem sprecherunabhangigen Ver- 
bundwort-Spracherkenner und mit einem sprecherab- 
hangigen Spracherkenner verbunden ist. Die beiden 
Spracherkenner sind ausgangsseitig mit einer Nachver- 
arbeitungseinheit zur syntaktisch-grammatikalischen 
und semantischen Verarbeitung der Erkenner-Aus- 
gangssignale verbunden. Diese Einheit wiederum ist 
mit der Dialog- und Ablaufsteuerung verbunden, die ih- 
rerseits die Steuerung des SDS und der durch das SDS 
zu steuernden Gerate bildet. Ferner ist eine Sprachein- 
gabe- und Sprachausgabeeinheit vorgesehen, die aus 
25 einem Sprachencoder, einem Sprachdecoder und ei- 
nem Sprachspeicher besteht. 

[0014] Der Sprachencoder ist eingangsseitig an die 
Vorrichtung zur Gerauschreduktion und ausgangsseitig 
an den Sprachspeicher angeschlossen. Der Sprach- 
speicher ist ausgangsseitig an den Sprachdecoder an- 
geschlossen, der ausgangsseitig uber einen Digital/ 
Analog-Wandler mit einem (nicht gezeigten) Lautspre- 
cher verbunden ist. 

[0015] Die Vorrichtung zur Echokompensation ist 
uber Schnittstellen mit (nicht gezeigten) Geraten/Sen- 
soren verbunden, die ggf. zu kompensierende Audiosi- 
gnale liefern (in der Figur mit "Audio" bezeichnet. 
[0016] Der sprecherunabhangige Verbundwort- 
Spracherkenner weist zum einen eine Einheit zur Merk- 
malsextraktion auf , in der die Cepstrumsbildung und die 
Adaption des Erkenners u.a. an die analoge Ubertra- 
gungscharakteristikder eingehenden Signale durchge- 
fuhrt werden, und zum anderen eine nachgeschaltete 
Einheit zur Klassifikation. 

[001 7] Der sprecherabhangige Spracherkenner weist 
ebenfalls zum einen eine Einheit zur Merkmalsextrakti- 
on und zum anderen ein Einheit zur Klassifikation auf. 
Zusatzlich ist jedoch uber einen Umschalter anstelle der 
Klassifikationseinheit eine Einheit zur Eingabe der spre- 
50 cherspezifischen Zusatz-Sprachkommandos zuschalt- 
bar, die in den Trainingsphasen vor, wahrend Oder nach 
dem Echtzeitbetrieb des SDS vom Erkenner trainiert 
werden sollen. Der sprecherabhangige Erkenner arbei- 
tet z.B. nach dem Dynamic-Tlme-Warping(DTW)-Ver- 
55 fahren, nach dem dessen Klassifikationseinheit die Ab- 
stande zwischen dem zu erkennenden Kommando und 
vortrainierten Referenzmustern feststellt und das Refe- 
renzmuster mit dem geringsten Abstand als das zu er- 
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kennende Kommando identifiziert. Der sprecherabhan- 
gige Erkenner kann mit Methoden der Merkmalsextrak- 
tion arbeiten, wie sie in sprecherunabhangigen Sprach- 
erkennern zur Anwendung kommen (Cepstrumsbil- 
dung, Adaption usw.). 

[0018] Ausgangsseitig sind die beiden Erkenner an 
die Nachverarbeitungseinheit zur syntaktisch-gramma- 
tikalischen und semantischen Verarbeitung der Erken- 
ner-Ausgangssignale angeschlossen (die Aufgabe und 
Funktion dieser Einheit wird weiter unten erlautert). Aus- 
gangsseitig ist der Nachverarbeitungseinheit die Dia- 
logsteuerung nachgeschaltet, die mit der Ablaufsteue- 
rung verbunden ist. Dialog- und Ablaufsteuerung bilden 
zusammen die SDS-Steuerungseinheit, die sowohl die 
Vorverarbeitung, die Sprachein- und -ausgabeeinheit, 
die beiden Erkenner, die Nachverarbeitung, das Kom- 
munikations- und Kontroll interface wie auch die zu steu- 
ernden bzw. bedienenden Gerate ansteuert (letztere 
uber geeignete Schnittstellen - wie in der Figur 2 ge- 
zeigt). 

[0019] Im folgenden wird die Funktionsweise des 
SDS naher erlautert. 

[0020] Das SDS beinhaltet - wie zuvor ausgefuhrt - 
zweierlei Spracherkennertypen zur Erkennung vorge- 
gebener Sprachkommandos. Die beiden Erkenner kon- 
nen wie folgt charakterisiert werden: 
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Sprecherunabhangiger Erkenner: sprecherunab- 
hangige Erkennung von verbunden gesprochenen 
Worten. Damit lassen sich allgemeine Steuerkom- 30 
mandos, Ziffern, Namen, Buchstaben etc. erken- 
nen, ohne daB der Sprecher bzw. Benutzer eines 
oder mehrere der benutzten Worte vorher trainiert 
haben muB. 

Weiterhin kann die Eingabe im Verbundwortmodus 35 
erfolgen, d.h. eine Kombination mehrerer Worte, 
Ziffern, Namen ergibt ein Kommando, welches in ei- 
nem Zug, d.h. ohne Pause eingesprochen wird (z. 
B. das Kommando: "Kreis mit Radius Eins"). Beim 
Algorithmus zur Klassifikation handelt es sich urn *o 
einen HMM(Hidden-Markov-Modell)-Erkenner, der 
im wesentlichen auf Phonemen (Lautuntereinhei- 
ten) und/oder Ganzwortmodellen aufbaut und dar- 
aus Worte bzw. Kommandos zusammensetzt. Das 
Vokabular und die daraus aufgebauten Komman- 45 
dos ("Syntaxstruktur") werden vorab im Labor f ixiert 
und dem Erkenner in Form von Datenfiles uberge- 
ben ("off-line Dialog Editiermodus"). Im Echtzeit- 
Betrieb kann das Vokabular und die Syntaxstruktur 
des unabhangigen Erkenners vom Benutzer nicht so 
modifiziert werden. 



Sprecherabhangiger Erkenner: sprecherabhangige 
Erkennung von benutzer-/sprecherspezifischen 
Namen oder Funktionen, die der Benutzer/Spre- 
cher definiert und trainiert. 



55 



Der Benutzer/Sprecher hat die Moglichkeit, ein 



personliches Vokabular in Form von Namens- 
listen, Funktionslisten etc. anzulegen bzw. zu 
editieren. Dadurch kann der Benutzer/Spre- 
cher seinen personlichen Wortschatz wahlen 
und diesen jederzeit "on line", d.h. im Echtzeit- 
betrieb, an seine Bedurfnisse anpassen. 
Als Beispiei fur eine Anwendung im Telefonum- 
feld sei die "Namensliste" genannt, d.h. das in- 
dividuell vom Benutzer/ Sprecher zusammen- 
gestellte Verzeichnis der Namen von Fern- 
sprechteilnehmern, wobei 

der jeweilige Name in einer Trainingspha- 
se ein- oder mehrmals vom Benutzer ein- 
gesprochen wird ( z.B. "Onkel Willi") und 
dem Namen perTastatureingabe, vorzugs- 
weise aber per unabhangigem Spracher- 
kenner eine Telefonnummer zugeordnet 
wird, 

- nach AbschluR des obigen Trainings und 
der Nummernzuweisung der Benutzer nur 
noch dem sprecherabhangigen Erkenner 
einen Namen ("Onkel Willi") nennt, nicht 
aber die zugehorige Telefonnummer, die 
dem System bereits bekannt ist. 

[0021] Der sprecherabhangige Erkenner wird in der 

- einfachsten Form als Einzelworterkenner ausge- 
legt 

- in der leistungsfahigeren Form als Verbundworter- 
kenner, der nahtlos mit dem sprecherunabhangigen 
Erkenner gekoppelt ist. (Z.B. "Onkel Willi anrufen" 
als vollstandiges Kommando, wobei das Wort "an- 
rufen" Teil des sprecherunabhangigen Vokabulars 
ist und "Onkel Willi" Teil des sprecherabhangigen 
Vokabulars ist). 

[0022] Im AnschluB an die Spracherkennung wird in 
der Nachverarbeitungseinheit eine Nachverarbeitung 
der mit einer bestimmten Erkennwahrscheinlichkeit be- 
hafteten Ergebnisse der beiden Spracherkenner durch- 
gefuhrt. 

[0023] Der sprecherunabhangige Verbundwort- 
Spracherkenner z.B. liefert mehrere Satzhypothesen in 
einer Reihenfolge, welche die Erkennwahrscheinlich- 
keiten reprasentiert. Diese Satzhypothesen berucksich- 
tigen in der Regel bereits die erlaubte Syntaxstruktur. 
Wo dies nicht der Fall ist, werden innerhalb der syntak- 
tischen Nachverarbeitung (FIG. 2) unzulassige Wortfol- 
gen ausgesondert bzw. nach verschiedenen Kriterien 
bewertet, wie wahrscheinlich die hierin auftretende 
Wortkombination ist. Ferner werden die von den 
Spracherkennern erzeugten Satzhypothesen auf ihre 
semantische Plausibilitat uberpruft und danach die Hy- 
pothese mit der hochsten Wahrscheinlichkeit ausge- 
wahlt. 

[0024] Ein korrekt erkanntes Sprachkommando wird 
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an die Dialogsteuerung weitergereicht und fuhrt an- 
schlieBend zu einem diesem Sprachkommando zuge- 
ordneten Eingriff auf die Applikation, wobei die Meldung 
uber das Kontroliinterface weitergereicht wird. Ggf. wird 
das erkannte Sprachkommando von der Dialogsteue- 5 
rung auch (oder nur) an die Sprachausgabe weiterge- 
reicht und dort ausgegeben. 

[0025] Das hier skizzierte System ist im B on-line 0 -Be- 
trieb durch eine fixierte Syntax- und Kommandostruktur 
sowie durch eine Kombination von fixiertem Vokabular io 
(sprecherunabhangiger Erkenner) und frei definierba- 
rem Vokabular, wie z.B. Namen (sprecherabhangiger 
Erkenner), gekennzeichnet. 

[0026] Dieser zunachst starr erscheinende Rahmen 
ist eine Voraussetzung fur hohe Erkennungsleistung bei 15 
groBem Vokabularumfang (zum gegenwartigen Zeit- 
punkt bis zu mehreren hundert Worten) z.B. bei ge- 
rauschbehafteter Umgebung, bei wechselnden akusti- 
schen Verhaltnissen in der Fahrgastzelle sowie bei va- 
riierenden Sprechern. Der hohe Vokabularumfang wird 20 
genutzt, urn die Benutzerfreundlichkeit durch Verwen- 
dung synonymer Worte bzw. unterschiedlicher Ausspra- 
chevarianten zu erhohen. Auch erlaubt die Syntax die 
Umstellung von Worten in den Sprachkommandos, so 
z.B.: 25 

"GroBerer Radius bei linkem Kreis" 

oder - alternativ hierzu - 

"Bei linkem Kreis groBerer Radius", 

wobei diese Alternativen jedoch von vorneherein 30 

bei der Festlegung mit dem "off-line Dialog Editor" 

definiert sein mussen. 

[0027] Der hier skizzierte Losungsansatz erweist sich 
vor allem deshalb als vorteilhaft, weil 35 

• die Verbundworteingabe von Kommandos naturli- 
cher und schneller ist als die Isoliertworteingabe. 
Die Praxis hat gezeigt, daB der unbefangene Be- 
nutzer schwer daran zu gewohnen ist, abgehackt *o 
(mit deutlichen Zwischenpausen) zu sprechen, urn 

ein Mehrwortkommando einzugeben (die Akzep- 
tanz derartiger Systeme ist deshalb deutlich gerin- 
ger), 

• die Eingabe z.B. von Ziffern- oder Buchstabenko- 45 
lonnen im Verbund leichter ist und weniger Konzen- 
tration erfordert als die Einzeleingabe, 

• die Dialogfuhrung naturlicher ist, weil z.B. bei Zif- 
fernkolonnen nicht jede Einzelziffer quittiert werden 
muB, sondern nur der eingegebene Ziffernblock, so 

• wegen des Wortschatzes von z.B. bis zu einigen 
hundert Worten eine Vielzahl von Funktionen per 
Sprache bedienbar sind, die vorher manuelle Be- 
dienung erforderten, 

• die Menge manueller Schaltelemente reduziert 55 
werden kann bzw. bei Spracheingabe die Hande 
anderweitig benutzbar sind, z.B. bei der Qualitats- 
kontrolle von Motoren. 



[0028] Der Bedienkomfort wird bei dem vorliegenden 
System weiterhin erhoht durch die vorteilhafte Nutzung 
von Freisprechmikrofon(en) anstelle (oder in Ergan- 
zung) von Headset (Kopfhorer und Lippenmikrofon) 
bzw. Handmikrofon. Die Nutzung eines Freisprechmi- 
krofons erfordert allerdings i.a. eine leistungsfahige Ge- 
rauschreduktion (FIG. 2) sowie ggf. eine Echokompen- 
sation von Signalen, die z.B. aus dem Dialog- oder an- 
deren Lautsprechern stammen. Je nach Applikation 
bzw. Gerauschpegel konnen diese MaBnahmen jedoch 
auch bei der Nutzung von Headset oder Handmikrofon 
erforderlich sein. 

[0029] Die Echokompensation erlaubt es dem Benut- 
zer/Sprecher insbesondere, der Sprachausgabe ins 
Wort zu fallen, d.h. den Erkenner anzusprechen, wah- 
rend die Sprachausgabe aktiv ist. 
[0030] Ferner konnen im Labor per "off-line Dialog 
Editor" jederzeit das Vokabular und die Kommandos 
verandert werden, ohne daB dies ein neues Training mit 
einer Vielzahl von Sprechern fur die neuen Worte des 
sprecherunabhangigen Erkenners bedarf. Der Grund 
liegt darin, daB im Labor die Datenbank fur sprecheru- 
nabhangige Phoneme und/oder sprecherunabhangige 
Ganzwortmodelle vorliegt und aus diesen Phonemen 
bzw. Ganzwortmodellen mit der vorhandenen Entwick- 
lungsumgebung ohne weiteres neue Worte und Kom- 
mandos generiert werden konnen. Letztlich lauft eine 
Kommando- oder Vokabularanderung darauf hinaus, 
die im Labor mit dem Entwicklungssystem berechneten 
neuen Parameter und Daten als Datenfile in den spre- 
cherunabhangigen "Echtzeit-Erkenner" zu uberspielen 
und dort im Speicher abzulegen. 
[0031 ] Mittels des SDS konnen sowohl Funktionen in- 
nerhalb des Computers, in dem das SDS eingebaut ist, 
als auch externe Gerate bedient werden. Das SDS weist 
z.B. neben einer PCMCIA-Schnittstelle noch Schnitt- 
stellen auf, welche fur externe Gerate zuganglich sind. 
Dies sind zum Beispiel: 

V.24-Schnittstelle, optischer Daten-Steuerbus, CAN-ln- 
terface usw. Optional kann das SDS mit weiteren 
Schnittstellen ausgestattet werden. 
[0032] Das SDS wird vorzugsweise durch Betatigen 
einer push-to-talk-Taste (PTT-Taste) oder durch ein de- 
finiertes Schlusselwort aktiviert. Die Abschaltung erfolgt 
durch Eingabe eines entsprechenden Sprachkomman- 
dos ("Abbruchkommando") an definierten Stellen des 
Dialogs oder jederzeit durch Betatigen der PTT-Taste 
oder einer Abbruchtaste oder automatisch durch die in- 
terne Ablaufsteuerung, wenn nach einer vom SDS vor- 
gegebenen oder adaptiv auf den jeweiligen Benutzer 
eingestellten Zeit und/oder nach einer Ruckfrage des 
SDS keine Spracheingabe erfolgt ist oder wenn der vom 
Benutzer ausgewahlte Dialog planmaBig abgeschlos- 
sen worden ist (z.B. die gewunschte Telefonnummer an 
das Telefon zwecks Aufbau der Verbindung abgegeben 
worden ist). In gerauscharmer Umgebung kann das 
SDS auch kontinuierlich aktiviert sein. 
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Ablaufbeschreibung 

[0033] An dieser Stelle sei betont, daB das SDS in 
FIG. 2 nur ein Beispiel ist fur ein nach der Erfindung 
mogliches Sprachdialogsystem. Die Konfiguration der 5 
Schnittstellen zur Dateneingabe bzw. Datenausgabe 
bzw. zur Steuerung der angeschlossenen Komponen- 
ten ist hier ebenfalls nur beispielhaft dargestellt. 
[0034] Die in der FIG. 2 dargestellten Funktionsblbk- 
ke werden im folgenden naher erlautert. 10 

1 . Echokompensation: 

Uber die Echokompensation werden die digitalisier- 
ten Lautsprechersignale z.B. der Sprachausgabe 
bzw. eines eingeschalteten Radios uber adaptive 15 
Filteralgorithmen vom Mikrofonsignal subtrahiert 
Die Filteralgorithmen bilden den Echopfad vom 
Lautsprecher zum Mikrofon nach. 

2. Gerauschreduktion: 20 

Diese ermoglicht es, stationare oder quasi-statio- 
nare Umgebungsgerausche vom digitalisierten 
Sprachsignal zu unterscheiden und diese vom 
Sprachsignal abzuziehen. Gerausche dieser Art 
sind z.B.: Fahrgerausche in einem Kraftfahrzeug 25 
(Kfz), Umgebungsgerausche in Labors und Buros 
wie LCifter oder Maschinengerausche in Fabrikati- 
onshallen. 

3. Segmentierung: 30 

Die Segmentierung setzt - wie in FIG. 3 gezeigt - 
auf spektraltransformierten Daten auf. Hierzu wer- 
den die Signale blockweise zu sogenannten "fra- 
mes" zusammengefaBt und mit einer schnellen 
Fouriertransformation (FFT) in den Frequenzbe- 35 
reich umgesetzt. Durch Betragsbildung und Ge- 
wichtung mit einem gehorbezogenen MEL-Filter, d. 
h. einem dem melodischen Empfinden derTonhohe 
nachgebildeten Filter, bei dem eine gehorbezogene 
Einteilung des Sprachbereiches (~ 200 Hz bis - 6 *o 
kHz) in einzelne Frequenzbereiche ("Kanale") 
durchgefuhrt wird, werden die Spektralwerte zu Ka- 
nalvektoren zusammengefaBt, die die Leistung in 
den verschiedenen Frequenzbandern angeben. Im 
AnschluB erfoigen eine Grobsegmentierung, die 45 
permanent aktiv ist und Kommandoanfang sowie 
Kommandoende grob erfaBt, sowie eine Feinseg- 
mentierung, die im AnschluB daran die genauen 
Grenzen festlegt. 

50 

4. Merkmalsextraktion 

Der Merkmalsextraktor berechnet aus den di- 
gitalisierten und segmentierten Sprachsigna- 
len uber mehrere Stufen hinweg Merkmalsvek- 55 
toren und bestimmt den dazugehorigen nor- 
mierten Energieweit 

Dazu werden beim sprecherunabhangigen Er- 



kenner die Kanalvektoren mit einer diskreten 
Cosinustransformation (DCT) in Cepstralvek- 
toren transformiert. Zusatzlich wird die Energie 
des Signals berechnet und normiert. Parallel 
dazu wird eine laufende Mittelwertberechnung 
der Cepstralwerte durchgefuhrt mit dem Ziel, 
den Erkenner sowohl an den momentanen 
Sprecher als auch auf Ubertragungscharakte- 
ristiken, z.B. des Mikrofons und des Kanals 
(Sprecher -> Mikrofon) zu adaptieren. 
Die Cepstralvektoren werden von diesem ad- 
aptierten Mittelwert befreit und mit der zuvor 
berechneten normierten Energie zu sogenann- 
ten CMF-Vektoren (Cepstralkoeffizienten mit- 
telwertfrei) zusammengefaBt. 

5. Klassifikation des sprecherunabhangigen 
Verbundwort-Spracherkenners 

5.1 Hidden-Markov-Modell (HMM) 

Ein Hidden-Markov-Modell ist eine Ansamm- 
lung von Zustanden, die untereinander durch 
Ubergange verbunden sind (FIG. 4). 
Jeder Obergang, von einem Zustand qi zum an- 
deren qj, wird durch eine sogenannte Uber- 
gangswahrscheinlichkeit beschrieben. Jedem 
Knoten (Zustand) ist ein Vektor von sogenann- 
ten Emissionswahrscheinlichkeiten der Lange 
M zugeordnet. Uber diese Emissionswahr- 
scheinlichkeiten wird die Verbindung zur physi- 
kalischen Welt hergestellt. Die Modellvorstel- 
lung geht soweit, daB in einem bestimmten Zu- 
stand qj eines von M verschiedenen Symbolen 
"emittiert" wird, entsprechend der zustandsbe- 
zogenen Emissionswahrscheinlichkeit. Die 
Symbole stehen stellvertretend fur die Merk- 
malsvektoren. 

Die Folge von "emittierten" Symbolen, die das 
Modell erzeugt, sind sichtbar. Die konkrete Ab- 
folge der Zustande, die innerhalb des Modells 
durchlaufen werden, ist dagegen nicht sichtbar 
(engl. "hidden"). 

Ein Hidden-Markov-Modell ist durch folgende 
GroBen definiert : 

• T Anzahl der Symbole 

• t Zeitpunkt fur ein beobachtetes Symbol, t 
= 1...T 

• N Anzahl der Zustande (Knoten) des Mo- 
dells 

• M Anzahl der moglichen Symbole (= Code- 
buchgroBe) 

• Q Zustande des Modells {q1 , q2, ... qn} 

• V Menge der moglichen Symbole 

• A Ubergangswahrscheinlichkeit vom ei- 
nem Zustand in einen anderen 

• B Wahrscheinlichkeit fur ein Ausgabesym- 
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bol in einem Zustand des Modells (Emissi- 
on swahrsche In I ichke it) 
• k Wahrscheinlichkeit fur den Anfangszu- 
stand des Modells (beim Training des 
HMM's). 5 

Unter Benutzung der Wahrscheinlichkeitsver- 
teilungen A und B konnen mit Hilfe dieses Mo- 
dells Ausgabesymbole erzeugt werden. 

10 

5.2 Aufbau des phonembasierten HMM-Erken- 
ners 



Sprachkommandos - unnotigerweise - vom 
Sprecher hinzugefugt werden, die aber in den 
Vokabularien des Spracherkenners nicht ent- 
halten sind. Beispielsweise kann der Sprecher 
das Kommando "Kreis mit Radius eins" noch 
erweitern urn Begriffe wie "Ich mochte jetzt 
einen ..." oder "Bitte einen ... n . Je nach Appli- 
kation bzw. Umfang des benotigten Vokabulars 
konnen diese phonembasierten Hidden-Mar- 
kov-Modelle bei Bedarf auch urn ganzwortba- 
sierte Hidden-Markov-Modelle erganzt bzw. er- 
weitert werden. 



Bei einem Spracherkennungsystem mit groBe- 
rem Wortschatz basiert die Worterkennung 15 
zweckmaBigerweise nicht auf Ganzwortern, 
sondern auf phonetischen Wortuntereinheiten. 
Eine solche Wortuntereinheit ist zum Beispiel 
ein Laut, ein Diphon (Doppellaut) oder ein Laut- 
ubergang. Ein zu erkennendes Wort wird dann 20 
durch die Verkettung der entsprechenden 
Wortuntereinheiten-Modelle dargestellt. In 
FIG. 5 ist als Beispiel einer solchen Darstellung 
mit verketteten Hidden-Markov-Modellen 
(HMM) zum einen die standardphonetische Be- 25 
schreibung des Wortes "braten" (FIG. 5a) so- 
wie zum anderen die phonetische Beschrei- 
bung von Aussprachevarianten (FIG. 5b) dar- 
gestellt. Diese Wortuntereinheiten-Modelle 
werden bei der Erstellung des Systems an 30 
Stichproben vieler Sprecher trainiert und bilden 
die Datenbasis, auf der der "off-line Dialog Edi- 
tor" aufsetzt. Dieses Konzept mit Wortunterein- 
heiten hat den Vorteil, daG neue Worter relativ 
einfach in das vorhandene Lexikon aufgenom- 35 
men werden konnen, da die Parameter fur die 
Wortuntereinheiten schon bekannt sind. 
Theoretisch kann mit diesem Erkenner ein be- 
liebig groBes Vokabular erkannt werde. In der 
Praxis wird man jedoch durch beschrankte Re- *o 
chenleistung und fur die jeweilige Anwendung 
notwendige Erkennungsleistung an Grenzen 
stoBen. 

Die Klassifikation basiert auf dem sogenannten 
Viterbialgorithmus, in welchem die Wahr- 45 
scheinlichkeit jedes Wortes fur die einlaufende 
Symbolfolge berechnet wird, wobei ein Wort 
hier als Verkettung verschiedener Phoneme zu 
verstehen ist. Der Viterbiaigorithmus wird er- 
ganzt durch eine Wortfolgestatistik ("Language so 
Model)"), d.h. die im "off-line Dialog Editor" spe- 
zifizierten Mehrwortkommandos liefern die er- 
laubten Wortkombinationen. Im Extremfall be- 
inhaltet die Klassifikation auch die Erkennung 
und Aussonderung von Fullauten (Ah, Hmm, 55 
Rausperer, Pausen) oder "Garbagewortern" 
("Nichtwortern"). "Garbagewdrter" sind sprach- 
liche Erganzungen, die den eigentlichen 



6. Sprecherabhangiger Erkenner 

Fur die sprecherabhangige Erkennung wird auf der- 
selben Vorverarbeitung aufgesetzt wie fur den spre- 
cherunabhangigen Erkenner. Aus der Literatur sind 
unterschiedliche Losungsansatze bekannt (z.B. dy- 
namische Zeitnormierung ("Dynamic Time Warping 
(DTW)°), Neuronale Netz-Klassifaktoren), die ein 
Training im Echtzeitbetrieb erlauben. Es handelt 
sich hierbei in erster Linie urn Einzelworterkenner, 
wobei hier vorzugsweise das Verfahren der dyna- 
mischen Zeitnormierung zum Einsatz kommt. 

Urn die Benutzerfreundlichkeit zu erhdhen, 
wird im hier beschriebenen SDS eine Kombination 
von sprecherunabhangigem (vgl. Punkt 5.) und 
sprecherabhangigem Erkenner im Verbundwort- 
modus verwendet ("Gloria anrufen", "Neues Ziel 
Onkel Willi", "Funktion Schragellipse darstellen"), 
wobei die Worte "Gloria", "Onkel Willi", "Schragel- 
lipse" vom Benutzer beim Training frei gewahlt wur- 
den und samt den zugehorigen Telefonnummern/ 
Zieladressen/Funktionsbeschreibungen in entspre- 
chenden Listen abgelegtwurden. Der Vorteil dieses 
Losungsansatzes liegt darin, daB ein bis zwei (oder 
ggf. noch mehr) Dialogschritte eingespart werden. 

7. Nachverarbeitung: Syntax und Semantikpru- 
fung: 

Das SDS beinhaltet eine leistungsfahige Nach- 
verarbeitung der von den Spracherkennern ge- 
lieferten Ergebnisse. Dazu gehoren die syntak- 
tischen Prufungen dahingehend, ob die ermit- 
telten Satzhypothesen dem a priori festgeleg- 
ten Aufbau der Sprachkommandos ("Syntax") 
entsprechen. Falls nicht, werden die entspre- 
chenden Hypothesen verworfen. Diese syntak- 
tische Analyse kann im Einzelfall auch teilweise 
oder vollstandig in den Erkenner selbst inte- 
griert werden, z.B. indem in den Entschei- 
dungsbaumen des Klassifikators die Syntax 
bereits berucksichtigt wird. 
Weiterhin werden die vom Sprach erkenner ge- 
lieferten Satzhypothesen auf ihren Sinn und auf 
ihre Plausibilitat uberpruft. 
Nach dieser Plausibilitatsprufung wird die akti- 
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ve Satzhypothese entweder an die Dialog- 
steuerung weitergereicht oder zuruckgewie- 
sen. 

Im Falle einer Ruckweisung wird die nachst- 
wahrscheinliche Hypothese des Spracherken- 
ners genommen und auf gleiche Art und Weise 
behandelt. 

Im Falle eines syntaktisch korrekten und plau- 
siblen Kommandos wird dieses zusammen mit 
der Beschreibung der Bedeutung an die Dia- 
logsteuerung weitergegeben. 

8. Dialog- und Ablaufsteuerung 

Die Dialogsteuerung reagiert auf den erkann- 
ten Satz und bestimmt die auszufuhrenden 
Funktionen. So z.B. legt sie test 

• welche Ruckfragen, Informationen Oder 
Aufforderungen an den Benutzer ausgege- 
ben werden, 

• welche Aktuatoren wie angesprochen wer- 
den, 

• welche Systemmodule aktiv sind (spreche- 
runabhangiger Erkenner, Training), 

• welche Teilwortschatze (Teilvokabularien) 
fur die als nachstes erwartete Antwort aktiv 
sind (z.B. nur Ziffern). 

Des weiteren behalt die Dialogsteuerung den 
Uberblick uber den Status der Applikation, so- 
weit dieser dem SDS mitgeteilt wird. Der Dia- 
logsteuerung unterlagert ist die Ablaufsteue- 
rung, die die einzelnen Prozesse zeitlich und 
logisch kontrolliert. 

9. Kommunikations- und Kontrol I interface 

Hier wird die Kommunikation mit den ange- 
schlossenen Peripheriegeraten einschlieBlich 
der zu bedienenden Gerate abgewickelt. 
Dazu stehen verschiedene Schnittstellen zur 
Verfugung. Das SDS setzt La. allerdings nicht 
alle diese Schnittstellen voraus. Die in der FIG. 
2 genannten sind nur beispielhafte Moglichkei- 
ten einer Implementierung. 
Das Kommunikations- und Kontrollinterface 
wickelt u.a. auch die Sprachein- und -ausgaben 
z.B. uber A/D- bzw. D/A-Wandler ab. 

10. Spracheingabe/-ausgabe 

Die Sprachein/ausgabe setzt sich zusammen 
aus einem "Sprachsignal-Kompressionsmo- 
dul" (= "Sprachencoder"), der die Redundanz 
bzw. Irrelevanz aus dem digitalisierten Sprach- 
signal entzieht und somit ein Sprachsignal de- 
finierter Dauer in einem erheblich kleineren 



Speicher als direkt nach der A/D-Wandlung ab- 
legen kann. Die komprimierte Information wird 
in einem Sprachspeicher abgelegt und fur die 
Ausgabe im "Sprachdecoder" regeneriert, so 

5 daB das ursprungliche eingegebene Wort wie- 

der horbar ist. Der hierbei ggf . auftretende Qua- 
litatsverlust bei der Wiedergabe halt sich bei 
den heute verfugbaren Codier- bzw. Decodier- 
verfahren in einem vertretbaren Rahmen. 

w Fiir die Dialogfiihrung sind im Sprachspeicher 

bereits von vorneherein ("off-line Dialog Edi- 
tor") eine Reihe von Kommandos, Hilfstexten 
oder Anweisungen abgelegt, die den Benutzer 
bei der Bedienung unterstiitzen sollen, bzw. 

15 ihm Informationen von der Applikationsseite 

her zukommen lassen. 

Weiterhin wird die Sprachcodierung wahrend 
des Trainings fur den sprecherabhangigen Er- 
kenner aktiviert, da der vom Benutzer einge- 
20 sprochene Namen gleichfalls im Sprachspei- 

cher abgespeichert wird. Der Benutzer kann 
durch Abhbren seiner Namensliste bzw. Funk- 
tionsliste jederzeit akustisch uber den Inhalt, d. 
h. die einzelnen Namen bzw. Funktionen, infor- 
ms miert werden. 

Bezuglich Sprachcodier- und -decodieralgo- 
rithmus konnen z.B. Verfahren angewandt wer- 
den, die aus der Sprachubertragung unter dem 
Schlagwort "Quellkodierung u bekannt sind und 
30 per Software auf einem programmierbaren 

Prozessor implementiert werden. 

[0035] In FIG. 6 ist ein Beispiel fiir einen moglichen 
Hardwareaufbau der SDS gemaG FIG. 2 dargestellt. Die 

35 Konfiguration der einzelnen Funktionsblocke sowie die 
Schnittstellen zur Datenein- und Datenausgabe bzw. 
zur Steuerung der angeschlossenen Komponenten ist 
hier nur beispielhaft dargestellt. Der hier angenommene 
aktive Wortschatz (Vokabular) fur sprecherunabhangig 

40 gesprochene Worte kann z.B. einige hundert Worte um- 
fassen. 

[0036] Der digitale Signalprozessor (DSP) ist ein han- 
delsublicher programmierbarer Prozessor, der sich von 
einem Mikroprozessor durch andere Busarchitektur (z. 

45 B. Harvard-Architektur statt Von-Neumann-Architektur), 
spezieile "on-chip"-Hardware-Rechenwerke (Multipli- 
zierer/Akkumulatoren/Shifter etc.) und l/O-Funktionali- 
taten auszeichnet, die bei echtzeitiger digitaler Signal- 
verarbeitung benotigt werden. In zunehmendem MaGe 

so bieten leistungsfahige RISC-Prozessoren ahnliche 
Funktionalitaten wie DSPs und konnen diese ggf. erset- 
zen. 

[0037] Der hier gezeigte DSP (bzw. ein anderer Mi- 
kroprozessor vergleichbarer Leistungsfahigkeit) kann 
55 mit Ausnahme spezieller Interface-Kontrollfunktionen 
samtliche in FIG. 2 dargestellte Funktionen per Soft- 
ware bzw. integrierter Hardware abwickeln. Mit derzeit 
handelsublichen DSPs lassen sich mit dem hier vorge- 
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stellten Konzept derzeit (beispielhaft) Wortschatze von 
mehreren hundert Worten realisieren, wobei davon aus- 
gegangen wird, daB dieser Wortschatz vollstandig zur 
Auswahl steht als "aktives Vokabular" und nicht durch 
Bildung von Teilvokabularien erheblich kleiner ist. Fur 
den Fall, daB Teilvokabularien gebildet werden, kann je- 
des davon die genannte GroBe umfassen. 
[0038] Durch die HardwarestrukturgemaB FIG. 6 und 
insbesondere durch den Verzicht auf zusatzliche Spe- 
zialbausteine fur die Erkennung und/oder fur Dialogab- 
wicklung, Ablaufsteuerung, Sprachkodierung und Inter- 
face-ProtokolIabwickiung bietet sich die Chance einer 
Realisierung mit einer kompakten, kostengunstigen 
Hardware mit niedrigem Stromverbrauch. Durch die 
technologische Weiterentwicklung werden zukunftig 
hohere Rechenleistungen und hbhere Speicherumfan- 
ge auf den DSPs verfugbar sein und groBere externe 
Speicherbereiche adressierbar sein, so daB umfangrei- 
chere Vokabularien bzw. leistungsfahigere Algorithmen 
realisierbar sein werden. 

[0039] Das SDS wird durch die an den DSP ange- 
schlossene "push-to-talk^Taste (PTT) aktiviert. Ein Be- 
tatigen dieser Taste veranlaBt die Steuersoftware, den 
Erkennvorgang zu starten. Im einzelnen sind neben 
dem DSP folgende weitere Hardware-Module vorhan- 
den: 

• A/D- und D/A-Wandler: 

Ober einen angeschlossenen A/D- und D/A-Wand- 
ler werden 

das Mikrofonsignal und ggf. die Lautsprecher- 
signale digitalisiert und zur weiteren Verarbei- 
tung an den DSP ubertragen, 
die digitalisierten Sprachdaten zur Sprachaus- 
gabe/ Dialogsteuerung in ein Analogsignal zu- 
ruckgewandelt, verstarkt und an ein geeignetes 
Wiedergabemedium (z.B. Lautsprecher) wei- 
tergereicht. 

• D2B optical: 

Dies ist ein optisches Bussystem, uber welches di- 
verse Audio- und Informationsgerate gesteuert 
werden konnen (z.B.: Autoradio und CD-Wechsler, 
Autotelefon und Navigationsgerate usw.). Dieser 
Bus ubertragt nicht nur Steuer-, sondern auch Au- 
diodaten; im Extremfall (d.h. wenn Mikrofon- und 
Lautsprechersignal hieruber geschickt werden) er- 
ubrigt sich A/D- und D/A-Wandlung im SDS. 

• CAN Bus: 

Dies ist ein Bussystem, uber welches Informations- 
gerate und Aktuatoren im Kfz gesteuert werden 
konnen; Audioubertragung ist in der Regel nicht 
moglich. 

• V.24-Schnittstelle: 

Diese Schnittstelle kann zurSteuerungdiverser Pe- 



ripheriegerate dienen. Weiterhin kann uber diese 
Schnittstelle die Software des SDS aktualisiert wer- 
den. So kann ein entsprechender Wortschatz oder 
eine entsprechende Sprache (z.B.: Deutsch, Eng- 
5 lisch, Franzdsisch...) geladen werden. 

• PCMCIA-Interface: 

Diese Schnittstelle dient neben der Kommunikation 
mit einem Desktop- Oder Portable Computer auch 

w der Spannungsversorgung des SDS. Mehrere der 
oben angefuhrten Funktionen konnen hier zusam- 
mengefaBt werden. Weiterhin kann diese Schnitt- 
stelle neben den elektrischen Eigenschaften auch 
die mechanischen Abmessungen des SDS bestim- 

*5 men. Diese konnen z.B. so ausgewahlt werden, 
daB das SDS in einen PCMCIA-Schacht eines De- 
sktop- oder Portable Computers gesteckt werden 
kann. 

20 • Speicher 

Der an den DSP angeschlossene Speicher (Daten/ 
Programm-RAM und ROM) dient dem DSP als Pro- 
gramm- und Datenspeicher. Ferner beinhaltet die- 
ser die spezifischen Klassifikations-Modelle und 

25 ggf. die Referenzmuster fur die beiden Spracher- 
kenner und die Festtexte zur Dialogsteuerung und 
zur Ben utzerfiih rung. In einem FLASH-Speicher 
oder batteriegepufferten Speicher werden die be- 
nutzerspezifischen Informationen abgelegt 

30 (Adress-, Datenlisten). 

[0040] Die hier skizzierte Hardware-Konfiguration 
insbesondere beziiglich der Schnittstellen hangt stark 
von derjeweiligen Applikation oder von speziellen Kun- 

35 denanforderungen ab und ist hier exemplarisch fur eini- 
ge Anwendungsfalle beschrieben. In anderen Applika- 
tionen (z.B. bei Anbindung an einen PC Oder eine Work- 
station oder beim Einsatz in portablen Telefonen) kann 
die Wahl der Schnittstellen vollig anders sein. Auch kon- 

40 nen A/D- und D/A-Wandler bereits auf dem DSP inte- 
griert sein. 

Funktionsbeschreibung am Beispiel eines sprach- 
bedienten Autotelefons 

45 

[0041] Im folgenden sind nun die Dialogablaufe ex- 
emplarisch am Beispiel einer sprachgesteuerten Tele- 
fonsteuerung (z.B. in einem Kfz) beschrieben. 
[0042] Dieses Beispiel laBt sich erweitern auf die An- 
sa steuerung von Telefon und Radio und/oder CD und/oder 
Navigation im Kfz bzw. auf die Bedienung eines CAE- 
Arbeitsplatzes o.a. 

[0043] Charakteristisch ist fur jedes dieser Beispiele: 

55 - Die sprecherunabhangige Erkennung von Mehr- 
wortkommandos, sowie Buchstaben- oder Ziffern- 
kolonnen, 

Die sprecherabhangige Eingabe eines vom Benut- 
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zer vorher trainierten, freigewahlten Namens Oder 
Funktionswortes, dem zugeordnet ist eine Funkti- 
on, ein Zahlencode (z.B. Telefonnummer eines Te- 
lefonbuches Oder Senderfrequenz einer Radiosen- 
derliste) Oder eine Buchstabenkombination (z.B. 
Zielort bei Navigationssystemen). 
Bei der Definition der Zuordnung gibt der Benutzer 
die Funktion, Buchstaben- Oder Ziffernkombination 
im sprecherunabhangigen Verbundwortmode ein 
(wobei die Funktion, die Buchstaben, Ziffern Teil 
des zulassigen Vokabulars sein mussen, d.h. mit 
"off-line Dialog Editor" vorab festgelegt sein mus- 
sen). 

Mit dieser Namenswahl verbunden ist stets die Ver- 
waltung einer entsprechenden Liste unterschiedli- 
cher Namen bzw. Funktionswortedesselben Benut- 
zers (Telefonbuch, Senderliste, Zielortliste). Diese 
Liste kann erweitert, geloscht, abgefragt oder kor- 
rigiert werden. 

Zustandsdiagramm SDS (FIG. 7): 

[0044] Wahrend der Bedienung des Telefons uber die 
Spracheingabe nimmt das SDS unterschiedliche Zu- 
stande ein, von denen einige beispielhaft in FIG. 7 ge- 
zeigt sind (deaktivierter Zustand; Kommandomodus 
"Telefon"; Nummerneingabebzw. -wahl sowie Namens- 
eingabe bzw. -wahl im Zusammenhang mit der Wahl- 
funktion; Nummerneingabe bzw. Namenstraining im Zu- 
sammenhang mit der Speicherfunktion; Namen loschen 
bzw. Telefonbuch komplett Oder selektiv loschen in Zu- 
sammenhang mit der Loschfunktion). Die Ubergange 
werden durch AuBerung von Sprachkommandos 
("Nummernwahl", "Namenswahl", "Namen speichern", 
"Nummern speichern", "Beenden", "Loschen") gesteu- 
ert, wobei die Aktivierung des SDS durch Betatigen der 
PTT-Taste erfolgt. Ein Gesprachsabbruch erfolgt z.B. 
durch Eingabe eines speziellen Abbruchkommandos 
("Beenden") Oder durch Betatigen einer Abbruchtaste. 

Betriebszustand "Deaktiviert": 

[0045] Das Sprachdialogsystem ist in diesem Zu- 
stand nicht erkennbereit. Teile der Signalverarbeitungs- 
software sind zweckmaBigerweise dennoch immer aktiv 
(Gerauschreduktion, Echokompensation), urn den Ge- 
rausch- und Echozustand permanent zu aktualisieren 

Betriebszustand "Aktiv" (FIG. 8): 

[0046] Das Sprachdialogsystem ist durch die PTT-Ta- 
ste aktiviert worden und wartet nun auf die zur weiteren 
Steuerung der Peripheriegerate (Telefon) erlaubten 
Kommandos. Die Funktionsablaufe des Betriebszu- 
standes "Aktiv" sind in FIG. 8 in Form eines FluBdia- 
gramms (beispielhaft) dargestellt, und zwar fur die 
Funktionen "Telefonbuch wahlen", "Telefonbuch lo- 
schen", "Namen loschen", "Namenswahl", "Nummern- 



wahl", "Namen speichern", "Nummern speichern", "Te- 
lefonbuch anhoren" und die zugehorigen Aktionen und 
Reaktionen (Ausgabe der Namenslisten, komplette 
Oder selektive Loschung, Namens- oder Nummernwahl, 
5 Nummerneingabe bzw. Namenstraining). Selbstver- 
standlich konnen diese Funktionen bei Bedarf durch zu- 
satzliche weitere Funktionen erganzt bzw. erweitert 
bzw. durch andere Funktionen ganz oder teilweise er- 
setzt werden. 

10 Generell ist in diesem Zusammenhang anzumerken, 
daB das aktivierte SDS jederzeit, d.h. auch wahrend ei- 
nes der nachfolgend naher erlauterten Funktionsablau- 
fe, wieder deaktiviert werden kann mit der Folge, daB 
der ggf. noch nicht vollendete Funktionsablauf ab- oder 

15 unterbrochen wird. 

Die Deaktivierung des SDS geschieht z.B. jederzeit 
durch Betatigen der ggf. vorhandenen Abbruchtaste 
oder durch Eingabe eines speziellen Abbruchkomman- 
dos (z.B. "Beenden", "Abbrechen" o.a.) an definierten 

20 Stellen des Dialogs. 

Betriebszustand "Namenswahl" (FIG. 9): 

[0047] Dieser Zustand setzt voraus, daB das entspre- 
25 chende Sprachkommando "Namenswahl" bzw. "Telefon 
Namenswahl" o.a. richtig erkannt wurde. In diesem Zu- 
stand ist die Wahl einer Telefonnummer durch eine Ein- 
gabe eines Namens moglich. Dazu wird auf einen spre- 
cherabhangigen Spracherkenner umgeschaltet. 
30 Das Sprachdialogsystem fordert zur Eingabe eines Na- 
mens auf. Dieser wird dem Benutzer bestatigt. Das 
Sprachdialogsystem schaltet nun wieder auf den spre- 
cherunabhangigen Erkenner urn. Sollte der Namen rich- 
tig erkannt worden sein, wird die dem Namen zugeord- 
35 nete Telefonnummer an das Telefon weitergegeben und 
dort die Verbindung zu dem entsprechenden Fern- 
sprechteilnehmer hergestellt. 

Sollte der Namen falsch verstanden worden sein, so 
kann durch eine Abbruchfunktion (z.B. durch Betatigen 
40 der Abbruchtaste) ein Wahlen der Telefonnummer ver- 
hindert werden. Alternativ hierzu ist auch eine Ruckfra- 
ge des SDS denkbar, ob die dem Sprachkommando zu- 
geordnete Aktion/Funktion ausgefuhrt werden soil oder 
nicht. 

45 Der Umfang des Telefonbuches kann je nach Aufwand 
bzw. Speicherplatz z.B. 50 oder mehr gespeicherte Na- 
men umfassen. Die Funktionsablaufe des Betriebszu- 
standes "Namenswahl" sind in FIG. 9 in Form eines 
FluBdiagramms dargestellt. 

50 

Betriebszustand "Nummernwahl" (FIG. 10): 

[0048] Dieser Zustand setzt voraus, daB das entspre- 
chende Sprachkommando (z.B. "Nummernwahl" o.a.) 
55 richtig erkannt wurde. In diesem Zustand erfolgt die 
Wahl einer Telefonnummer durch eine Eingabe einer 
Zahlenfolge. Die Eingabe erfolgt verbunden (ggf. block- 
weise) und sprecherunabhangig. 
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Das SDS fordert in diesem Betriebszustand zur Eingabe 
einer Nummer auf. Der Benutzer gibt daraufhin die 
Nummer komplett Oder in einzelnen Blocken als 
Sprachkommandos ein. Die eingegebenen Nummern 
bzw. der jeweils eingegebene Nummernblock wird dem 
Benutzer nach Eingabe des jeweiligen Sprachkomman- 
dos bestatigt. Nach der Aufforderung "wahlen" wird die 
Nummer an das Telefon weitergegeben und dort die 
Verbindung zu dem entsprechenden Fernsprechteil- 
nehmer hergestellt. 

Sollte die Nummer falsch verstanden worden sein, so 
kann durch eine Fehlerfunktion die Nummer korrigiert 
Oder geloscht werden oder uber eine Abbruchfunktion, 
z.B. durch das Kommando "Beenden" die Sprachbedie- 
nung abgebrochen werden, d.h. das SDS deaktiviert 
werden. 

Die Funktionsablaufe des Betriebszustandes "Num- 
mernwahr sind in FIG . 1 0 in Form eines FluBdiagramms 
dargestellt. 

Betriebszustand "Verbindung": 



Telefonbuch loschen: 

[0052] Komplettes oder selektives Loschen, wobei 
durch Ruckfrage ("Sind sie sicher?") des SDS vor dem 
s endgultigen Loschen und durch ggf . Ausgabe des spe- 
zifischen Namens ein versehentlichen Loschen durch 
Erkennungsfehler vermieden wird. 

Namen loschen: 

[0053] Das SDS fordert den Benutzer auf, den zu 16- 
schenden Namen zu sprechen. Der Name wird vom 
SDS wiederholt. 

Danach wird der Benutzer mit der Frage "Sind sie si- 
cher?" aufgefordert, den Loschvorgang zu bestatigen: 
Die Eingabe des Sprachkommandos "Ja" veranlaGt das 
Loschen des Namens aus dem Telefonbuch. 
Jedes andere als Sprachkommando eingegebene Wort 
beendet den Dialog. 

Betriebszustand "Telefonbuch anhoren": 
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[0049] Die Telefonverbindung zu dem gewunschten 
Fernsprechteilnehmer ist aufgebaut. In diesem Zustand 
ist die Spracherkennungseinheit deaktiviert. Das Tele- 
fongesprach wird z.B. durch die Abbruchtaste beendet. 



[0054] Das SDS sagt den Inhalt des gesamten Tele- 
fonbuchs an. Ein Bestatigen der PTT-Taste oder die Ein- 
25 gabe eines Abbruchkommandos bricht die Ansage bzw. 
den Dialog ab. 



Betriebszustand "Nummer speichern / Namen spei- 
chern" 

[0050] Nachdem auf das Sprachkommando "Num- 
mer speichern" bzw. "Namen speichern" hin das SDS 
den Benutzer/Sprecher aufgefordert hat, die Ziffern ein- 
zugeben und der Benutzer diese eingesprochen hat 
(vgl. Betriebszustand "Nummernwahl ,, ) wird anstelle 
des Kommandos "wahlen" das Kommando "speichern" 
bzw. ein vergleichbares Kommando eingegeben. Die 
Telefon-nummer wird nunmehr gespeichert. Das SDS 
fordert anschlieBend den Benutzer auf, den zugehori- 
gen Namen einzusprechen und laBt die Namenseinga- 
be zur Verbesserung des Trainingsergebnisses ein- 
oder mehrfach wiederholen. Nach dieser Wiederholung 
ist der Dialog beendet. Zu erganzen ist, daf3 die anfang- 
liche Zifferneingabe durch Dialog-Kommandos wie "ab- 
brechen" bzw. "Abbruch", "wiederholen", "korrigieren" 
bzw. "Korrektur", "Fehler" usw. kontrolliert werden kann. 

Betriebszustand "Telefonbuch loschen / Namen lo- 
schen" 

[0051 ] In Zusammenhang mit dem "Telefonbuch" (Li- 
ste aller trainierten Namen und zugehorigen Telefon- 
nummern) sind eine Reihe von Editierfunktionen defi- 
niert, die den Komfort des Systems fur den Benutzer er- 
hohen, wie z.B.: 



Betriebszustand "Telefonbuch wahlen": 

30 [0055] Das SDS sagt den Inhalt des gesamten Tele- 
fonbuchs an. Wird nach Ansage des gewunschten Na- 
mens ein Abbruch- oder Wahl- kommando gegeben 
bzw. die PTT-Taste betatigt, so wird der ausgewahlte 
Namen noch einmal angesagt und nachgefragt "Soil die 

35 Nummer gewahlt werden?" 

Die Eingabe des Sprachkommandos "Ja" veranlaBtden 
Wahlvorgang, d.h. die Verbindung wird hergestellt. 
"Nein" veraniaBt das SDS, das Ansagen des Telefonbu- 
ches fortzugesetzen. Das Sprachkommando "Ab- 

40 bruch", "Abbrechen" o.a. oder Betatigen der Abbruchta- 
ste beendet die Ansage bzw. den Dialog. 
Die beiden zuletzt genannten Funktionen "Telefonbuch 
anhoren" und "Telefonbuch wahlen" lassen sich auch zu 
einer einzigen Funktion zusammenfassen. Dies erfolgt 

45 z.B. dadurch, daG bei "Telefonbuch anhoren" nach dem 
relevanten Namen die PTT-Taste betatigt wird und das 
SDS z.B. nach der Mitteilung "Der Name 'Onke Willi' 
wird gewahlt" den Wahlvorgang einleitet. 
[0056] Die Eigenschaften des zuvor beschriebenen 

50 SDS konnen - unter Einbeziehung weiterer Applikatio- 
nen - wie folgt zusammengefaGt werden: 
[0057] Benutzt wird ein Verfahren zur automatischen 
Steuerung und/ oder Bedienung von einem oder meh- 
reren Geraten per Sprachkommandos bzw. per Sprach- 

55 dialog im Echtzeitbetrieb, bei dem Verfahren zur 
Sprachausgabe, Sprachsignalvorverarbeitung und 
Spracherkennung, syntaktisch-grammatikalischen 
Nachverarbeitung sowie Dialog-, Ablaut- und Schnitt- 
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stellensteuerung zur Anwendung kommen. Das Verfah- 
ren In seiner Grundversion ist im "on-line"-Betrieb durch 
eine fixierte Syntax- und Kommandostruktur, sowie 
durch eine Kombination von fixiertem Vokabular (spre- 
cherunabhangiger Erkenner) und frei definierbarem Vo- 
kabular, wie z.B. Namen Oder Funktionsworte (spre- 
cherabhangiger Erkenner), gekennzeichnet. In vorteil- 
haften Aus- und Weiterbildungen kann es durch eine 
Reihe von Merkmalen charakterisiert werden, wonach 
vorgesehen ist, daB: 
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Syntax- und Kommandostruktur wahrend des Echt- 
zeit-Dialogbetriebs fixiert sind, 
Vorverarbeitung, Erkennung und Dialogsteuerung 
fur Betrieb in gerauschbehafteter Umgebung aus- is 
gelegt sind, 

fur die Erkennung allgemeiner Kommandos, Na- 
men Oder Daten kein Training durch den Benutzer 
erforderlich ist ("Sprecherunabhangigkeit"), 
fur die Erkennung spezifischer Namen, Daten Oder 20 
Kommandos einzelner Benutzer ein Training not- 
wendig ist ("Sprecherabhangigkeit" bei benutzer- 
spezifischen Namen bzw. Funktionsworten), 
die Eingabe von Kommandos, Namen Oder Daten 
vorzugsweise verbunden erfolgt, wobei die Anzahl 25 
der Worte, aus denen ein Kommando fur die 
Spracheingabe gebiidet wird, variabel ist, d.h. daB 
nicht nur Ein- Oder Zweiwortkommandos, sondern 
auch Drei-, Vier- Oder Mehrwortkommados definiert 
werden konnen, 30 
eine echtzeitige Verarbeitung und Abwicklung des 
Sprachdialoges gegeben ist, 
die Sprachein- und -ausgabe nicht Oder nicht nur 
uber Handapparat, Kopfhorer, Headset o.a., son- 
dern vorzugsweise im Freisprechbetrieb erfolgt, 35 
die bei Freisprechen im Mikrofon registrierten Laut- 
sprecherechos elektrisch kompensiert werden, urn 
gleichzeitigen Betrieb von Spracheingabe und 
Lautsprecher (z.B. fur Sprachausgabe, Ready-Si- 
gnale etc.) zu ermoglichen ("Echokompensation"), 40 
eine laufende automatische Anpassung an die ana- 
loge Ubertragungscharakteristik(Raumakustik, Mi- 
krofon- und Verstarkercharakteristik, Sprechercha- 
rakteristik) im Betrieb erfolgt, 

im "off-line Dialog Editor" die Syntaxstruktur, die 45 
Dialogstruktur, das Vokabular und Aussprachevari- 
anten fur den Erkenner neu konfiguriert und festge- 
legt werden konnen, ohne daB dies zusatzlicher 
Oder neuer Sprachaufnahmen fur den unabhangi- 
gen Erkenner bedarf, 50 
im "off-line Dialog Editor" der Sprachumfang fur die 
Sprachausgabe festgelegt wird, wobei 



a) die registrierten Sprachsignale einer digita- 
len Sprachdatenkompression unterworfen wer- 
den ("Sprachcodierung"), anschlieBend abge- 
speichert werden und im echtzeitigen Sprach- 
ausgabebetrieb nach Auslesen aus dem Spei- 



55 



cher eine entsprechende Sprachdecodierung 
erfolgt, Oder 

b) der Sprachumfang zuvor in Form von Text 
abgespeichert wurde und im echtzeitigen 
Sprachausgabebetrieb einer "Text-zu-Spra- 
che°-Synthese ("Text-to-speech"-synthesis) 
unterworfen wird, 

die Wortstellung durch Vertauschen einzelner Wor- 
te eines Kommandos veranderbar ist, 
vorgegebene synonyme Worte nutzbar sind, 
die gleiche Funktion durch Kommandos unter- 
schiedlicher Wortanzahl (z.B. durch Zweiwort- Oder 
Dreiwortkommandos) realisiert werden kann, 
zur Erkennung und anschlieBender Aussonderung 
von Einfiigungen wie "Ah", "Hm", "Bitte", Oder an- 
derer nicht zum Vokabular gehoriger Kommandos 
dem Nutzvokabular weitere Worter bzw. Lautein- 
heiten hinzugefiigt werden ("Nichtworter", "Garba- 
geworter") bzw. Wordspottingansatze genutzt wer- 
den, 

die Dialogstruktur durch folgende Eigenschaften 
sich auszeichnet: 

- flache Hierarchie, d.h. einige wenige Hierar- 
chieebenen, vorzugsweise eine oder zwei Aus- 
wahlebenen, 

Einbindung von "Ellipsen", d.h. Verzicht auf 
Wiederholung ganzer Kommandosatze mit 
mehreren Kommandoworten; statt dessen Be- 
schrankung auf kurze Kommandos, z.B. "wel- 
ter 0 , "hoher", "starker", wobei dem System aus 
dem jeweils vorigen Kommando bekannt ist, 
worauf sich diese Aussage bezieht, 

- Einbeziehung von "Hilfe-" Oder "Info-Menus", 
Einbeziehung von Ruckfragen von seiten des 
SDS bei unsicheren Entscheidungen des Er- 
kenners ("Wie bitte", "bitte wiederholen", "und 
weiter"), 

Einbeziehung von Sprachausgaben, urn durch 
Anregung bestimmter Sprechweisen die Er- 
kennungssicherheit zu steigern (z.B. durch die 
Aufforderung: "bitte lauter"), 

die Spracherkennung durch einmalige Betatigung 
einer "Push-to-talk"-Taste ("PTT-Taste") aktiviert 
und dies akustisch quittiert wird (z.B. durch einen 
"Pieps"-Ton), urn anzuzeigen, daB die Eingabe nun- 
mehr erfolgen kann, 

auf die Betatigung der PTT-Taste verzichtet werden 
kann, wenn nach Ruckfragen von Seiten der 
Sprachausgabe im AnschluB daran Spracheinga- 
ben erforderlich sind, wobei die PTT-Taste 

entweder Mehrfachfunktionen wahrnimmt Oder 
beinhaltet, z.B. wahrend des Telefonierens 
("Auflegen des Horers", "Abheben des Horers") 
bzw. beim Neustart des Sprachdialogsystems 
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bzw. beim Abbruch eines Telef on wah Ivor- 
gangs, 

Oder erganzt wird durch zusatzliche Schalter, 
welche z.B. einen Neustart Oder den Abbruch s 
einer Funktion/Aktion erlauben ("Abbruchta- 
ste"); die PTT- und die Abbruchfunktion lassen 
sich ggf. auch in einen gemeinsamen Hebel in- 
tegrieren (z.B.: Auslosen der PTT-Funktion 
durch Heranziehen des Hebels, Auslosen der 10 
Abbruchfunktion durch Wegdriicken des He- 
bels), 

das Dialogsystem eines Oder mehrere der folgen- 
den Leistungsmerkmale aufweist: 15 

die spezifischen (z.B. trainierten) Kommandos, 
Daten, Namen oder Parameter unterschiedli- 
cher Benutzer werden bei Bedarf fur spatere 
Wiederbenutzung festgehalten, 20 
vom Sprecher trainierte Kommandos bzw. Na- 
men werden wahrend der Trainingsphase nicht 
nur der Erkennung zugefuhrt, sondern auch in 
ihrem zeitlichen Verlauf aufgenommen, einer 
Datenkompression ("Sprachkodierung") zuge- 25 
fiihrt und nichtf luchtig gespeichert, urn dem Be- 
nutzer durch Vorlesen den aktuellen Stand wie- 
dergeben zu konnen, 

die vom Sprecher trainierten Kommandos bzw. 
Namen werden wahrend der Trainingsphase 30 
derart verarbeitet, daB Umgebungsgerausche 
wahrend der Aufnahme weitgehend kompen- 
siert werden, 

der AbschluB eines Erkennungsvorganges bei Be- 35 
darf optisch bzw. akustisch quittiert wird ePieps"- 
Ton o.a.) oder alternativ hierzu (und ggf. nur) bei 
sicherheits- bzw. zeit- oder kostenrelevanten Ent- 
scheidungen das Erkennungsergebnis akustisch 
wiederholt wird (Sprachausgabe) und der Benutzer 40 
die Moglichkeit hat, durch ein Sprachkommando 
oder durch Betatigen eines Schafters (z.B. der Ab- 
bruchtaste) die Ausfuhrung der entsprechenden 
Aktion zu unterbinden, 

das Sprachdialogsystem mit einem optischen An- 45 
zeigemedium (LCD Display, Monitor o.a.) gekoppelt 
ist, wobei das optische Anzeigenmedium einzelne 
oder mehrere oder alle der folgenden Funktionen 
ubernehmen kann: 

50 

Ausgabe der erkannten Befehle zu Kontroll- 
zwecken, 

Darstellung der vom Zielgerat als Reaktion auf 
das Sprachkommando eingestellten Funktio- 
nen, 55 
Darstellung verschiedener Funktionen/Alterna- 
tiven, die per Sprachkommando anschlieBend 
eingestellt bzw. ausgewahlt oder modifiziert 



werden, 

jeder Benutzer eigene Namens- oder Abkurzungs- 
listen einrichten kann (vergleichbar einem Telefon- 
oder AdreBbuch), wobei 

dem vom Benutzer beim sprecherabhangigen 
Erkenner trainierte Namen eine Ziffernkette, 
Buchstabenkette oder ein Kommando bzw. ei- 
ne Kommandosequenz zugeordnet ist, die im 
sprecherunabhangigen Betriebsmodus einge- 
geben wurde, 

anstelle der erneuten Eingabe der Ziffernkette, 
Buchstabenkette oder Kommandosequenz der 
Benutzer die Listenbezeichnung und den von 
ihm gewahlten Namen eingibt, oder neben dem 
Namen ein geeignetes Kommando eingege- 
ben wird, welches auf die richtige Liste schlie- 
Ben laBt, 

die Liste sprachgesteuert jederzeit urn weitere 
Eintrage erweitert werden kann, 
die Liste sprachgesteuert komplett oder selek- 
tiv geloscht werden kann, 
die Liste auf einen Sprachbefehl hin abgehort 
werden kann, wobei die vom Benutzer einge- 
gebenen Namen und bei Bedarf die zugehori- 
gen Ziffernkette, Buchstabenkette bzw. Kom- 
mandos akustisch ausgegeben werden kon- 
nen, 

die akustische Ausgabe der Liste zu jedem be- 
liebigen Zeitpunkt abgebrochen werden kann, 

eine Folge von Ziffern (Ziffernkolonne) entweder an 
einem Stuck (zusammenhangend) oder blockweise 
eingesprochen werden kann, wobei das SDS vor- 
zugsweise eines oder mehrere oder alle der folgen- 
den Merkmale aufweist: 

nach jeder Eingabepause erfolgt eine Quittie- 
rung, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 
nach der Quittierung durch ein Kommando 
"Fehler 0 , "falsch" o.a. wird der letzte Eingabe- 
block geloscht und die verbleibenden, gespei- 
cherten Blocke akustisch ausgegeben, 
nach der Quittierung durch ein Kommando °L6- 
schen" oder eine ahnliche Kommandoeingabe 
werden alle eingegebenen Ziffernblocke ge- 
loscht, 

nach der Quittierung durch ein Kommando 
"wiederholen" o.a. werden die bisher gespei- 
cherten Blocke akustisch ausgegeben, 
nach der Quittierung durch ein Kommando "Ab- 
bruch - oder eine ahnliche Kommandoeingabe 
wird die Eingabe der Ziffernkolonne vollstandig 
abgebrochen, 

nach der Quittierung konnen weitere Ziffern 
bzw. Ziffernblocke eingegeben werden, 
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- nach der Quittierung wird die Zifferneingabe 
durch ein geeignetes Kommando abgeschlos- 
sen, 

bei der auf das Kommando "Fehler" o.a. bzw. 
auf das Kommando "wiederholen" folgenden 5 
Ausgabe der bisher eingesprochenen Ziffern 
wird dieselbe Blockung benutzt wie bei der Ein- 
gabe, 

eine Folge von Buchstaben (Buchstabenkolonne) w 
eingesprochen wird, welche zur Auswahl komple- 
xer Funktionen bzw. zur Eingabe einer Vielzahl von 
Informationen vorgesehen ist, wobei die Buchsta- 
benkolonne zusammenhangend oder blockweise 
eingegeben wird und das SDS vorzugsweise eines *5 
Oder mehrere oder alle der folgenden Merkmale 
aufweist: 

- nach jeder Eingabepause erfolgt eine Quittie- 
rung, indem der letzte Eingabeblock von der 20 
Sprachausgabe wiederholt wird, 

nach der Quittierung durch ein Kommando 
"Fehler", "falsch" o.a. wird der letzte Eingabe- 
block geloscht und die verbleibenden, gespei- 
cherten Blocke akustisch ausgegeben, 25 
nach der Quittierung durch ein Kommando "L6- 
schen" o.a. werden alle eingegebenen Buch- 
staben geloscht und im AnschluB daran erfolgt 
eine erneute Eingabe, 

- nach der Quittierung durch ein Kommando 30 
"wiederholen" o.a. werden die bisher gespei- 
cherten Blocke akustisch ausgegeben, 

nach der Quittierung werden weitere Buchsta- 
ben bzw. Buchstabenblocke eingegeben, 

- gegebenenfalls erfolgt ein Abgleich der Buch- 35 
stabenkolonne mit einer gespeicherten Wortli- 

ste und es wird (werden) daraus das (die) best- 
passende(n) Wort (Worter) extrahiert; alterna- 
te hierzu kann dieser Abgleich bereits nach 
Eingabe der einzelnen Buchstabenblocks er- 40 
folgen, 

nach der Quittierung durch ein Kommando 11 Ab- 
bruch" oder eine ahnliche Kommandoeingabe 
wird die Eingabe der Buchstabenkolonne voll- 
standig abgebrochen, 45 

- nach der Quittierung wird die Buchstabenein- 
gabe durch ein geeignetes Kommando abge- 
schlossen, 

die Ausgabelautstarke der Sprachausgabe und des 50 
"Pieps"-Tons den Umgebungsgerauschen ange- 
paBt sind, wobei die Umgebungsgerausche wah- 
rend der Sprachpausen bezuglich ihrer Starke und 
Charakteristik erfaBt werden, 

der Zugang zum Sprachdialogsystem bzw. der Zu- 55 
griff auf benutzerspezifische Daten/Kommandos 
nur nach Eingabe spezieller Schlussel- oder 
PaBworte moglich ist bzw. nach Eingabe spezieller 



Schlussel- oder PaBworte durch einen autorisierten 
Sprecher erfolgt, dessen Sprachcharakteristika 
dem Dialogsystem bekannt sind und von diesem 
gepriift werden, 

langer andauernde Sprachausgaben (z.B. Info-Me- 
nus) durch gesprochene Abbruchkommandos oder 
durch die PTT- oder die Abbruchtaste vorzeitig be- 
endet werden konnen, 

das Sprachdialogsystem in einer der folgenden 
Formen die manuelle Bedienung obiger Funktionen 
(z.B. per Schalter, Taste, Drehknopf) erganzt oder 
ersetzt: 

- die Sprachkommandierung ersetzt keinerlei 
manuelle Bedienung, sondern existiert neben 
der manuellen Bedienung (d.h. die Bedienung 
kann jederzeit manuell erfolgen bzw. weiterge- 
fuhrt werden), 

- einige spezielle Leistungsmerkmale sind nur 
per Spracheingabe aktivierbar, die wesentli- 
chen Gerate- und Bedienfunktionen bleiben so- 
wohl manuell wie per Sprache kommandierbar, 

- die Anzahl der manuellen Bedienelemente wird 
deutlich reduziert, einzelne Tasten bzw. Dreh- 
knopfe ubernehmen Mehrfachfunktionen; per 
Sprache wird manuellen Bedienelementen ei- 
ne spezielle Funktion zugewiesen; nur wesent- 
liche Bedienfunktionen sind noch manuell an- 
steuerbar; die Basis der Bedienfunktionen ist 
jedoch die Sprachkommandierung, 

mit einem einzigen Mehrwortkommando eine Viel- 
zahl unterschiedliche Gerate sowie Geratefunktio- 
nen ansprech- und modifizierbar sind und somit ei- 
ne umstandliche mehrstufige Vorgehensweise (z. 
B. Auswahl des Gerates im 1 . Schritt, danach Aus- 
wahl der Funktion im 2. Schritt, danach Auswahl der 
Art der Anderung im 3.Schritt) nicht erforderlich ist, 
das Sprachdialogsystem im Kfz fur einzelne oder 
mehrere der im folgenden genannten Funktionen 
zur Anwendung kommt: 

Bedienung einzelner oder mehrerer Gerate, 
wie z.B. Autotelefon, Autoradio (ggf. mit Kas- 
sette, CD-Wechsler, Soundsystem), Navigati- 
onssystem, Notruf, Telematikdienste, Bordmo- 
nitor, Klimaanlage, Heizung, Reiserechner, Be- 
leuchtung, Schiebedach, Fensterheber, Sitz- 
versteller, Sitzheizung, Heckscheibenheizung, 
Spiegelverstellung und -memory, Sitzverstel- 
lung und -memory, Lenkradverstellung und 
-memory etc., 
- Informationsabfrage von Parametern, wie z.B. 
Oldruck, -temperatur, Kuhlwassertemperatur, 
Verbrauch, Reifendruck etc., 
Information uber notwendige MaBnahmen in 
besonderen Situationen, wie z.B. bei zu hoher 
Kuhlwassertemperatur, zu geringem Reifen- 
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druck etc., 

Warnung des Fahrers bei Defekten des Fahr- 

zeugs, 

wobei 

die sprachgesteuerte Auswahl eines neuen 5 
Senders im Autoradio vorzugsweise nach ei- 
nem der folgenden Ablaufe erfolgt: 

Kommandierung des Suchlaufs auf- bzw. 
abwarts, 10 
Spracheingabe der Senderfrequenz vor- 
zugsweise in der umgangssprachlichen 
Form (z.B. "Einhundertdreikommasieben n 
bzw. 'Hundertdreikommasieben", "Hun- 
dertunddreikommasieben" bzw. ein- 15 
schlieBlich der Frequenzangabe (z.B. 
"Hundertdreikommasieben MegaHertz")), 
Spracheingabe des gebrauchlichen Sen- 
dernamens (z.B. "SDRI"), 

20 

bei der Klimaanlage die gewunschte Tempera- 
tur (ggf . nach dem Ort in der Fahrgastzelle des 
Kfz gestaffelt nach links, rechts, vorne, hinten) 
per Spracheingabe nicht nur relativ, sondern 
vorzugsweise absolut (d.h. in Grad, Fahrenheit 25 
o.a.) festgelegt werden kann und zusatzlich mi- 
nimale bzw. maximale bzw. mittlereTemperatur 
Oder die Normaltemperatur kommandiert wer- 
den konnen; ahnlich konnen die Betriebsbedin- 
gungen fur das Geblase im Fahrgastraum test- 30 
gelegt werden, 

dem Navigationssystem ein Zielort (Ortsname, 
StraBenname) durch Eingabe von Buchsta- 
benkolonnen im "Buchstabiermode" mitgeteilt 
wird, wobei auch der Anfang des Namens als 35 
Eingabe geniigt und das Navigationssystem 
gegebenfalls mehrere Kandidaten zur Auswahl 
anbietet, 

eine oder mehrere der folgenden benutzerspezifi- *o 
schen Namenslisten eingerichtet werden: ' 

Liste zur Speicherung von Telefonnummern 
unter vorgebbaren Namen/Abkurzungen, 
Liste zur Speicherung von Zielen fur das Navi- 45 
gationssystem unter vorgebbaren Namen/Ab- 
kurzungen, 

Liste zur Speicherung von Funktionsnamen fur 

Kommandos oder Kommandofolgen, 

Liste zur Speicherung von Senderfrequenzen 50 

des Autoradios unter vorgebbaren Senderna- 

men bzw. Abkurzungen, 

die Ausgabelautstarke der Sprachausgabe und 

des "Pieps"-Tons, ggf. auch die Radio lautstar- 

ke, unter Berucksichtigung eines oder mehre- 55 

rer der folgenden Parameter festgelegt bzw. 

adaptiv angepaBt werden: 



Fahrzeuggeschwindigkeit, 
Drehzahl, 

Offnungsbreite der Fenster und des Schie- 

bedaches, 

Geblaseeinstellung, 

Fahrzeugtyp, 

Wichtigkeit der Sprachausgabe in der je- 
weiligen Dialogsituation. 

[0058] In einer bevorzugten Ausfuhrungsform des ge- 
schilderten Sprachdialogsystems ist u.a. vorgesehen, 
daB die Ablauf-, Dialog-, Schnittstellensteuerung, die 
Sprachein-/-ausgabe sowie die Sprachsignalvorverar- 
beitung, Erkennung, syntaktisch-grammatikalische und 
semantische Nachverarbeitung mittels Mikro- und Si- 
gnalprozessoren, Speichern und Schnittstellenbaustei- 
nen erfolgt, vorzugsweise aber mit einem einzigen digi- 
talen Signal- oder Mikroprozessor sowie dem erforder- 
lichen externen Daten- und Programmspeicher, den In- 
terfaces sowie den zugehorigen Treiberbausteinen, 
dem Taktgenerator, der Steuertogik und den fur Sprach- 
ein-/-ausgabe erforderlichen Mikrofonen und Lautspre- 
chern samt zugehorigen Wandlern und Verstarkern so- 
wie gegebenenfalls einer Push-to-talk(PTT)-Taste und 
einer Abbruchtaste. 

[0059] Ferner ist es moglich, daB uber ein oder meh- 
rere Interfaces 

Daten und/oder Parameter ladbar bzw. nachladbar 
sind, urn z.B. Verfahrensanderungen oder ein 
Sprachdialogsystem fur eine andere Sprache zu 
realisieren, 

die auf einem separaten Rechner festgelegte Oder 
modifizierte Syntaxstruktur, Dialogstruktur, Ablauf- 
steuerung, Sprachausgabe etc. auf das Sprachdia- 
logsystem ubertragen werden ("off-linie Dialog Edi- 
tor"), 

Status- oder Diagnoseinformationen vom SDS an- 
gefordert und abgeholt werden konnen, 
das Sprachdialogsystem mit mehreren der anzu- 
steuernden Gerate uber ein Bussystem und/oder 
ein ringformiges Netzwerk verknupft ist (anstelle 
von Punkt zu Punkt-Verbindungen zu den einzel- 
nen Geraten) und daB uber diesen Bus bzw. das 
Netzwerk Steuerdaten bzw. Audiosignale bzw. Sta- 
tusmeldungen des Kfz bzw. der zu bedienenden 
Gerate ubertragen werden, 
die einzelnen anzusteuernden Gerate nicht jeweils 
ein eigenes Sprachdialogsystem enthalten, son- 
dern von einem einzigen (gemeinsamen) Sprach- 
dialogsystem bedient werden, 
eine Oder mehrere Schnittstellen zu Fahrzeugkom- 
ponenten oder Fahrzeugrechnern bestehen, wor- 
uber permanente oder aktuelle Fahrzeugdaten dem 
Sprachdialogsystem mitgeteilt werden, wie z.B. 
Geschwindigkeit, Motortemperatur usw. 
das Sprachdialogsystem wahrend der Wartezeit (in 
der keine Sprachein- oder -ausgabe erfolgt) andere 



15 



29 



EP 0 852 051 B1 



30 



Funktionen z.B. des Radios, des Telefons o.a, uber- 
nimmt, 

- durch erweiterten Speicher ein multilinguales spre- 
cherunabhangiges Dialogsystem aufgebaut wird, 
wobei kurzfristig zwischen den Dialogsystemen 
verschiedener Sprachen umgeschaltet werden 
kann, 

- ein optisches Display mit dem Sprachdialogsystem 
uber ein spezielles Interface bzw. uber den Busan- 
schluB gekoppelt ist, wobei dieser Bus vorzugswei- 
se ein optischer Datenbus ist und hieruber sowohl 
Steuer- wie Audiosignale ubertragen werden. 

[0060] Es versteht sich, daB die Erfindung nicht auf 
die dargestellten Ausfuhrungs- und Anwendungsbei- 
spiele beschrankt ist, sondern vielmehr sinngemaB auf 
weitere ubertragbar ist. So ist es z.B. denkbar, ein sol- 
ches Sprachdialogsystem zur Bedienung eines elektri- 
schen Worterbuches Oder eines elektronischen Diktier- 
bzw. Obersetzungssystems zu verwenden. 
[0061] Eine besondere Ausgestaltung der Erfindung 
besteht darin, daB 

• fur relativ begrenzte Anwendungen mit kleiner Syn- 
tax die syntaktische Uberprufung in Form eines 
syntaktischen Bigram-Sprachmodells in den Erken- 
nungsprozeB einbezogen wird und somit die syn- 
taktische Nachverarbeitung entfallen kann, 

• bei komplexen Aufgabenstellungen die Schnittstel- 
le zwischen Erkenner und Nachverarbeitung nicht 
mehr einzelne Satze, sondern ein sog. "Worthypo- 
thesennetz" ist, aus dem in einer Nachverarbei- 
tungsstufe aufgrund syntaktischer Vorgaben mit 
speziellen Paarungs-Strategien der bestpassende 
Satz extrahiert wird. 

[0062] Ferner ist es moglich, erganzend Oder alterna- 
tiv zur Sprachausgabe eine auf optischer Basis arbei- 
tende Ausgabeeinheit (z.B. Display) vorzusehen, auf 
der z.B. die eingegebenen Sprachkommandos in der 
vom SDS erkannten Form zur Anzeige gebracht wer- 
den. 

[0063] SchlieBlich ist es denkbar, daB das aktivierte 
SDS auch dadurch wieder deaktiviert werden kann, in- 
dem uber eine langere, vom System entweder fest vor- 
gegebene Oder adaptiv auf den Benutzer/Sprecher ein- 
gestellte Zeitdauer vom Benutzer/ Sprecher kein neues 
Sprachkommando mehr eingegeben wird. 

Abkurzungen 



DCT Digitale Cosinus Transformation 

FFT Fast Fourier Transformation 

LDA Lineare Diskriminanzanalyse 

PCM Pulse Code Modulation 

VQ Vektorquantisierung 

SDS Sprachdialogsystem 

SBS Sprachbediensystem 



10 Patentanspruche 



15 



20 



[0064] 

PTT 

HMM 

DTW 

CMF 



Push-to-Talk 

Hidden Markov Modelle 

Dynamic Time Warping (dynamische Zeitnor- 

mierung) 

Mittelwert befreite Cepstralvektoren 



25 



30 
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40 



45 



50 
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Verfahren zur automatischen Steuerung eines oder 
mehrerer Gerate durch Sprachkommandos Oder 
per Sprachdialog im Echtzeitbetrieb, 
qekennzeichnet durch folcjende Merkmale: 

- die eingegebenen Sprachkommandos werden 
mittels eines sprecherunabhangigen Verbund- 
wort-Spracherkenners und eines sprecherab- 
hangigen Zusatz-Spracherkenners erkannt 
und gemaB ihrer Erkennungswahrscheinlich- 
keit klassifiziert, 

- erkannte zulassige Sprachkommandos wer- 
den auf ihre Plausibilitat uberpruft und dasjeni- 
ge zulassige und plausible Sprachkommando 
mit der groBten Erkennungswahrscheinlichkeit 
als das eingegebene Sprachkommando identi- 
fiziert und die diesem Sprachkommando zuge- 
ordneten Funktionen des oder der Gerate bzw. 
Antworten des Sprachdialogsystems initiiert 
bzw. generiert. 

Verfahren nach Anspruch 1, gekennzeichnet 
durch folgende Merkmale: 

• die Sprachkommandos (der Sprachdialog) 
werden (wird) auf der Basis von mindestens ei- 
ner Syntaxstruktur, mindestens einem Basis- 
kommandovokabular und bei Bedarf minde- 
stens einem sprecherspezifischen Zusatzkom- 
mandovokabular gebildet (gefuhrt); 

• die Syntaxstruktur(en) und das (die) Basiskom- 
mandovokabular(ien) werden in sprecherunab- 
hangiger Form vorgegeben und sind wahrend 
des Echtzeitbetriebs fixiert; 

• das (die) sprecherspezifische(n) Zusatzkom- 
mandovokabular (ien) wird (werden) vom (je- 
weiligen) Sprecher eingegeben und/oder gean- 
dert, indem in Trainingsphasen in- und/oder au- 
Berhalb des Echtzeitbetriebs ein nach einem 
sprecherabhangigen Erkennungsverfahren ar- 
beitender Zusatz-Spracherkenner vom Gewei- 
ligen) Sprecher durch ein- oder mehrmalige 
Eingabe der Zusatzkommandos auf die 
sprachspezifischen Merkmale des (jeweiligen) 
Sprechers trainiert wird; 

• im Echtzeitbetrieb erfolgt die Abwicklung des 
Sprachdialogs und/oder die Steuerung des Ge- 
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rats (der Gerate) wie folgt: 

vom (jeweiligen) Sprecher eingegebene 
Sprachkommandos werden einem spre- 
cherunabhangigen und auf der Basis von s 
Phonemen und/oder Ganzwortmodellen 
arbeitenden Verbundwortspracherkenner 
und dem sprecherabhangigen Zusatz- 
Spracherkenner zugeleitet und dort Qe- 
weils) einer Merkmalsextraktion unterzo- 10 
gen und 

im Verbundwortspracherkenner an- 
hand der dort extrahierten Merkmale 
auf das Vorliegen von Basiskomman- 15 
dos aus dem (jeweiligen) Basiskom- 
mandovokabular gemaG der (jeweils) 
vorgegebenen Syntaxstruktur unter- 
sucht und klassifiziert und 
im sprecherabhangigen Zusatz- 20 
Spracherkenner anhand der dort ex- 
trahierten Merkmale auf das Vorliegen 
von Zusatzkommandos aus dem (je- 
weiligen) Zusatzkommandovokabular 
untersucht und klassifiziert; 25 

anschlieGend werden die als mit einer be- 
stimmten Wahrscheinlichkeit erkannt klas- 
sifizierten Kommandos und Syntaxstruktu- 
ren der beiden Spracherkenner zu hypo- 30 
thetischen Sprachkommandos zusam- 
mengefugt und diese gemaG der vorgege- 
benen Syntaxstruktur auf ihre Zulassigkeit 
und Erkennungswahrscheinlichkeit unter- 
sucht und klassifiziert; 35 
anschlieGend werden die zulassigen hypo- 
thetischen Sprachkommandos nach vor- 
gegebenen Kriterien auf ihre Plausibilitat 
untersucht und von den als plausibel er- 
kannten hypothetischen Sprachkomman- *o 
dos dasjenige mit der hochsten Erken- 
nungswahrscheinlichkeit ausgewahlt und 
als das vom (jeweiligen) Sprecher einge- 
gebene Sprachkommando identifiziert; 
anschlieGend wird (werden) die dem iden- 45 
tifizierten Sprachkommando zugeordnete 
(n) 

Funktion(en) des (jeweils) zu steuern- 
den Gerats initiiert und/oder so 
Antwort(en) gemaB einer vorgegebe- 
nen Sprachdialogstruktur zur Fortfuh- 
rung des Sprachdialogs generiert 

3. Verfahren nach einem der Anspruche 1 oder 2, da- 55 
durch gekennzeichnet, daB die Eingabe von 
Sprachkommandos akustisch, vorzugsweise im 
Freisprechbetrieb, erfolgt. 



4. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB akustisch ein- 
gegebene Sprachkommandos gerauschreduziert 
den beiden Spracherkennern zugeleitet werden, in- 
dem durch stationare bzw. quasistationare Umge- 
bungsgerausche verursachte Gerauschsignale im 
Sprachsignal-Empfangskanal vor den beiden 
Spracherkennern vorzugsweise mittels adaptiver 
digitaler Filterverfahren kompensiert werden. 

5. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB akustisch ein- 
gegebene Sprachkommandos echokompensiert 
den beiden Spracherkennern zugeleitet werden, in- 
dem in den Sprachsignal-Empfangskanal ruckge- 
koppelte Signale einer Sprach- Oder Musikausga- 
beeinheit im Sprachsignal-Empfangskanal vor den 
beiden Spracherkennern, insbesondere vor der Ge- 
rauschreduktionseinheit und vorzugsweise mittels 
adaptiver digitaler Filterverfahren, kompensiert 
werden. 

6. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB die eingege- 
benen Sprachkommandos nach Digitalisierung 
blockweise zusammengefaGt und nach einer Ge- 
wichtung mittels einer Spektraltransformation, vor- 
zugsweise einer Fast-Fourier-Transformation 
(FFT), in den Frequenzbereich umgesetzt werden 
und anschlieGend durch Betragsbildung und nach- 
folgender gehbrbezogener MEL-Filterung zu Ka- 
nalvektoren zusammengefaGt werden und daG dar- 
an anschlieGend eine Segmentierung durchgefuhrt 
wird. 

7. Verfahren nach Anspruch 6, dadurch gekenn- 
zeichnet, daB die Segmentierung in eine Grob- und 
eine Feinsegmentierung unterteilt ist. 

8. Verfahren nach einem der Anspruche 6 Oder 7, da- 
durch gekennzeichnet, daB im sprecherunabhan- 
gigen Verbundwort-spracherkenner die Merkmals- 
extraktion dergestalt durchgefuhrt wird, 

• daG die Kanalvektoren mit einer diskreten Co- 
sin ustransformation (DCT) in Cepstralvektoren 
transformiert werden, 

• daG zusatzlich die Energie des zugehorigen Si- 
gnals berechnet und normiert wird, 

• daG zur Adaption des Erkenners auf den jewei- 
ligen Sprecher und/oder die jeweiligen Ubertra- 
gungscharakteristiken des Sprachsignal-Emp- 
fangskanals fortlaufend der Mittelwert der Cep- 
stralvektoren berechnet und von den Cepstral- 
vektoren abgezogen wird, 

• daG die vom Mittelwert der Cepstralvektoren 
befreite Cepstralvektoren und die berechnete 
normierte Signalenergie zu mittelwertfreien 
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Cepstralkoeffizienten (CMF-Vektoren) zusam- 
mengefaBt werden. 

9. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB der spreche- 
runabhangige Verbundworterkenner bei der Klassi- 
fizierung mit phonem- und/oder ganzwortbasierten 
Hidden-Markov-Modellen (HMM) arbeitet. 

10. Verfahren nach Anspruch 9, dadurch gekenn- 
zeichnet, dafl die Klassifikation mit Hilfe eines Vi- 
terbialgorithmus durchgefuhrt wird und daB der Vi- 
terbialgorithmus vorzugsweise durch eine vorgege- 
bene Wortfolgestatistik erganzt wird. 

1 1 . Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB bei der Klas- 
sifikation zusatzlich auch Fullworter Oder -laute 
oder sonstige im vorgegebenen Basisvokabular 
nicht enthaltene Fehlkommandos als solche er- 
kannt und entsprechend klassifiziert und ausgeson- 
dert werden. 

1 2. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB der spreche- 
runabhangige Verbundwort-Spracherkenner und 
der sprecherabhangige Zusatz-Spracherkenner 
auf derselben Signalvorverarbeitung fur die einge- 
gebenen Sprachkommandos aufsetzen, vorzugs- 
weise einschlieBlich der Verfahren zur Gerauschre- 
duktion, Echokompensation und Segmentierung. 

1 3. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB der Zusatz- 
spracherkenner als Einzelwortspracherkenner vor- 
zugsweise nach dem Verfahren der dynamischen 
Zeitnormierung arbeitet. 

14. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB der spreche- 
runabhangige Verbundwort-Spracherkenner und 
der sprecherabhangige Spracherkenner kombiniert 
im Verbundwortmodus arbeiten. 

15. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB wahrend des 
Ech'tzeitbetriebs eine fortlaufende Anpassung des 
Sprachsignal-Empfangskanals an die analoge 
Ubertragungscharakteristik, insbesondere Raum- 
akustik- und/oder Mikrofon- und/oder Verstarker- 
und/oder Sprechercharakteristik, erfolgt. 

16. Verfahren nach einem der Anspruche 1 bis 15, da- 
durch gekennzeichnet, daB die vorgegebenen 
Basiskommandos in sprachcodierter Form vorge- 
geben und abgespeichert werden und/oder die vom 
(jeweiligen) Sprecher in Trainingsphasen eingege- 
benen Zusatzkommandos und/oder im Echtzeitbe- 



trieb eingegebenen Sprachkommandos nach ihrer 
Eingabe sprachcodiert weiterverarbeitet und/oder 
nichtfluchtig abgespeichert werden und daB aku- 
stisch auszugebende codierte Sprachkommandos 
5 vor ihrer Ausgabe sprachdecodiert werden. 

17. Verfahren nach einem der Anspruche 1 bis 15, da- 
durch gekennzeichnet, daB die vorgegebenen 
Basiskommandos und/ oder die Zusatzkommandos 

io und/oder die im Echtzeitbetrieb eingegebenen 
Sprachkommandos in Form von Text abgespeichert 
werden und daB akustisch auszugebende Sprach- 
kommandos vor ihrer Ausgabe einer Text-zu-Spra- 
che-Synthese unterzogen werden. 

15 

1 8. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB die Syntax- 
struktur und die sprecherunabhangigen Komman- 
dos vorab im "off-line Dialog Editiermodus" im La- 

20 bor erstellt und fixiert werden und dem Verbund- 
wort-Spracherkenner in Form von Datenfiles iiber- 
geben werden. 

19. Verfahren nach einem der vorhergehenden Anspru- 
25 che, dadurch gekennzeichnet, daB 

• die Wortstellung in den Sprachkommandos 
durch Vertauschen einzelner Worte eines Kom- 
mandos veranderbar ist und/oder 

30 • vorgegebene synonyme Worte bei der Bildung 
von Sprachkommandos nutzbar sind und/oder 

• die gleiche Funktion durch Sprachkommandos 
unterschiedlicher Wortanzahl realisiert werden 
kann. 



35 

20. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB zur Erken- 
nung und anschlieBender Aussonderung von Ein- 
fiigungen Oder anderer nicht zum Vokabular geho- 

40 riger Kommandos dem zulassigen Vokabular wei- 
tere Worter bzw. Lauteinheiten hinzugefugt werden 
bzw. Wordspottingansatze genutzt werden. 

21 . Verfahren nach einem der vorhergehenden Anspru- 
45 che, dadurch gekennzeichnet, daB die Dialog- 

struktur folgende Etgenschaften aufweist: 

• flache Hierarchie mit nur einigen wenigen Hier- 
archieebenen, vorzugsweise einer oder zweier 

so Hierarchieebenen, 

• Einbindung von Ellipsen bei der Abwicklung 
des Sprachdialogs, 

• Einbeziehung von Hilfe- oder Info-Menus, 

• Einbeziehung von Ruckfragen des Sprachdia- 
55 logsystems bei unsicheren Entscheidungen 

des Erkenners, 

• Einbeziehung von Sprachausgaben, urn durch 
Anregung bestimmter Sprechweisen die Er- 
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kennsicherheit zu steigern. 

22. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daft die Spracher- 
kennung bzw. der Sprachdialog zur Steuerung ei- 5 
ner Oder mehrerer Geratefunktionen durch vor- 
zugsweise einmalige Betatigung einer Push-to- 
talk-Taste (PTT) aktiviert wird und diese Aktivierung 
vorzugsweise akustisch und/oder optisch quittiert 
wird. w 

23. Verfahren nach einem der Anspruche 1 bis 22, da- 
durch gekennzeichnet, daft die Aktivierung auto- 
matisch abgebrochen wird, wenn nach einer vor- 
gebbaren oder adaptiv auf den jeweiligen Benutzer is 
eingestellten Zeit und/oder nach einer Ruckfrage 
des Sprachdialogsystems keine Spracheingabe er- 
folgt ist oder wenn der vom Benutzer ausgewahlte 
Dialog planmaBig abgeschlossen worden ist. 

20 

24. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daft der Sprach- 
dialog bzw. die Eingabe von Sprachkommandos 
durch Eingabe eines vorgegebenen spezielien Ab- 
bruch-Sprachkommandos an definierten Stellen 25 
des Sprachdialogs oder jederzeit durch das Betati- 
gen einer Taste, vorzugsweise der Push-to-talk-Ta- 
ste oder einer Abbruchtaste, abgebrochen werden 
kann. 

30 

25. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daft das Sprach- 
dialogsystem eines Oder mehrere der folgenden 
Leistungsmerkmale aufweist: 

35 

• die spezifischen (z.B. trainierten) Sprachkom- 
mandos unterschiedlicher Sprecher werden 
bei Bedarf fur spatere Wiederbenutzung fest- 
gehalten, 

• vom Sprecher trainierte Sprachkommandos *o 
bzw. Namen werden wan rend der Trainings- 
phase nicht nur der Erkennung zugefuhrt, son- 
dern auch in ihrem zeitlichen Verlauf aufge- 
nommen, einer Datenkompression ("Sprach- 
kodierung") zugefuhrt und nichtfluchtig gespei- 45 
chert, 

• die vom Sprecher trainierten Sprachkomman- 
dos werden wahrend derTrainingsphase derart 
verarbeitet, daB Umgebungsgerausche wah- 
rend der Aufnahme weitestgehend kompen- so 
siert werden. 

26. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daft der AbschluB 
eines Erkennvorganges akustisch durch einen Kon- 55 
trollton quittiert wird. 

27. Verfahren nach einem der vorhergehenden Anspru- 



che, dadurch gekennzeichnet, daft vorzugsweise 
bei sicherheits-bzw. zeit- Oder kostenrelevanten 
Entscheidungen das Erkennungsergebnis aku- 
stisch wiederholt wird (Sprachausgabe) und der 
Sprecher die Moglichkeit hat, durch ein Sprach- 
kommando oder durch Betatigen eines Schalters, 
vorzugsweise der Push-to-talk- oder der Ab- 
bruchtaste die Ausfuhrung der dem Sprachkom- 
mando zugeordneten Funktion zu unterbinden oder 
riickgangig zu machen. 

28. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daft das Sprach- 
dialogsystem an ein optisches Anzeigemedium, 
vorzugsweise ein LCD-Display oder einen Monitor 
oder ein Display eines angesteuerten Gerats, ge- 
koppelt ist. 

29. Verfahren nach Anspruch 28, dadurch gekenn- 
zeichnet, daft das optische Anzeigenmedium ein- 
zelne oder mehrere der folgenden Funktionen uber- 
nimmt: 

• Ausgabe der erkannten Sprachkommandos zu 
Kontrollzwecken, 

• Darstellung der vom Zielgerat als Reaktion auf 
das Sprachkommando eingestellten Funktio- 
nen, 

• Darstellung verschiedener Funktionen/Alterna- 
tiven, die per Sprachkommando anschlieBend 
eingestellt bzw. ausgewahlt Oder modifiziert 
werden. 

30. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daft jeder Spre- 
cher eigene Namens-oder Abkurzungslisten ein- 
richten kann mit einem oder mehreren oder alien 
der folgenden Merkmale: 

• der vom Sprecher beim sprecherabhangigen 
Erkenner trainierte Namen reprasentiert eine 
Ziffernkette, Buchstabenkette und/oder ein 
Kommando bzw. eine Kommandosequenz, die 
im sprecherunabhangigen Betriebsmodus ein- 
gegeben wurde, 

• anstelle der erneuten Eingabe der Ziffernkette, 
Buchstabenkette Oder Kommandosequenz 
kann der Benutzer die Listenbezeichnung und 
den von ihm gewahlten Namen eingeben, oder 
neben dem Namen ein geeignetes Kommando 
eingeben, welches auf die richtige Llste schlie- 
ften laftt, 

• die Liste kann sprachgesteuert jederzeit urn 
weitere Eintrage erweitert werden, 

• die Liste kann sprachgesteuert komplett oder 
selektiv geloscht werden, 

• die Liste kann auf einen Sprachbefehl hin ab- 
gehort werden, wobei die vom Benutzer einge- 
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gebenen Namen und bei Bedarf die zugehdri- 
gen Ziffernkette, Buchstabenkette bzw. Kom- 
mandos akustisch ausgegeben werden, 

• die akustische Ausgabe der Liste kann zu je- 
dem beliebigen Zeitpunkt abgebrochen wer- 
den. 

31 . Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB eine Folge 
von Ziffern (Ziffernkolonne) an einem Stuck zusam- 
menhangend oder blockweise eingesprochen wer- 
den kann, wobei die Spracheingabe bzw. der 
Sprachdialog vorzugsweise eines oder mehrere 
oder alle der folgenden Merkmale aufweist: 

• nach jeder Eingabepause erfolgt eine Quittie- 
rung, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 

• nach der Quittierung durch ein Sprachkom- 
mando "Fehler" o.a. wird der letzte Eingabe- 
block geloscht und die verbleibenden, gespei- 
cherten Blocke akustisch ausgegeben, 

• nach der Quittierung durch ein Sprachkom- 
mando "Loschen" o.a. werden alle eingegebe- 
nen Ziffernblocke geloscht, 

• nach der Quittierung durch ein Sprachkom- 
mando "wiederholen" o.a. werden die bisher 
gespeicherten Blocke akustisch ausgegeben, 

• nach der Quittierung durch ein Sprachkom- 
mando "Abbruch" o.a. wird die Eingabe der Zif- 
fernkolonne vollstandig abgebrochen, 

• nach der Quittierung konnen weitere Ziffern 
bzw. Ziffernblocke eingegeben werden, 

• nach der Quittierung wird die Zifferneingabe 
durch ein geeignetes Sprachkommando "stop", 
"speichern" o.a. abgeschlossen, 

• durch Eingabe eines eine Aktion/Funktion star- 
tenden Sprachkommandos wie "wahlen" o.a. 
wird die Eingabe abgeschlossen und die dem 
Sprachkommando zugeordnete Aktion/ Funkti- 
on initiiert. 

32. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB eine Folge 
von Buchstaben (Buchstabenkolonne) eingespro- 
chen wird, welche zur Auswahl komplexer Funktio- 
nen bzw. zur Eingabe einer Vielzahl von Informatio- 
nen vorgesehen ist, wobei die Buchstabenkolonne 
zusammenhangend oder blockweise eingegeben 
wird und die Spracheingabe bzw. der Sprachdialog 
vorzugsweise eines oder mehrere oder alle der fol- 
genen Merkmale aufweist: 

• nach jeder Eingabepause erfolgt eine Quittie- 
rung, indem der letzte Eingabeblock von der 
Sprachausgabe wiederholt wird, 

• nach der Quittierung durch ein Sprachkom- 
mando "Fehler" o.a. wird der letzte Eingabe- 
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block geloscht und die verbleibenden, gespei- 
cherten Blocke akustisch ausgegeben, 

• nach der Quittierung durch ein Sprachkom- 
mando "Loschen" o.a. werden alle eingegebe- 
nen Buchstaben geloscht und im AnschluB dar- 
an kann eine erneute Eingabe erfolgen, 

• nach der Quittierung durch ein Sprachkom- 
mando "wiederholen" o.a. werden die bisher 
gespeicherten Blocke akustisch ausgegeben, 

• nach der Quittierung konnen weitere Buchsta- 
ben bzw. Buchstabenblocke eingegeben wer- 
den, 

• gegebenenfalls erfolgt ein Abgleich der Buch- 
stabenkolonne Oder der einzelnen Buchsta- 
benblocks mit einer gespeicherten Wortliste 
und es wird (werden) daraus das (die) bestpas- 
sende(n) Wort (Worter) extrahiert, 

• nach der Quittierung durch ein Sprachkom- 
mando "Abbruch" o.a. wird die Eingabe der 
Buchstabenkolonne vollstandig abgebrochen, 

• nach der Quittierung wird die Buchstabenein- 
gabe durch ein Sprachkommando "stop", "spei- 
chern" o.a. abgeschlossen, 

• durch Eingabe eines eine Aktion/Funktion star- 
tenden Sprachkommandos wie "wahlen" o.a. 
wird die Eingabe abgeschlossen und die dem 
Sprachkommando zugeordnete Aktion/ Funkti- 
on initiiert. 

33. Verfahren nach einem der Anspruche 31 oder 32, 
dadurch gekennzeichnet, daB bei der auf das 
Sprachkommando "Fehler" o.a, bzw. auf das 
Sprachkommando "wiederholen" o.a. folgenden 
Ausgabe der bisher eingesprochenen Ziffern die- 
selbe Blockung benutzt wird wie bei der Eingabe. 

34. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB die Ausgabe- 
lautstarke der Sprachausgabe und des Kontrolltons 
den Umgebungsgerauschen angepaBt sind, wobei 
die Umgebungsgerausche wahrend der Sprach- 
pausen bezuglich ihrer Starke und Charakteristik 
erfaGt werden. 

35. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB der Zugang 
zum Sprachdialogsystem bzw. der Zugriff auf be- 
nutzerspezifische Daten/Kommandos nur durch 
Eingabe spezieller Kommandoworte bzw. durch 
Eingabe spezieller Kommandoworte eines autori- 
sierten Sprechers erfolgt, dessen Sprachcharakte- 
ristika dem Sprachdialogsystem bekannt sind und 
von diesem gepruft werden. 

36. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB langer andau- 
ernde Sprachausgaben (z.B. Info-Menus) durch 
gesprochene oder manuelle Abbruch kommandos 
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vorzeitig beendet werden kdnnen. 

37. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daB das Sprach- 
dialogsystem in einer der folgenden Formen die 5 
manuelle Bedienung obiger Funktionen (z.B. per 
Schalter, Taste, Drehknopf) erganzt oder ersetzt: 

• Die Sprachkommandierung existiert neben der 
manuellen Bedienung, so daB die Bedienung w 
jederzeit manuell erfolgen bzw. weitergefuhrt 
werden kann; 

• einige spezielle Leistungsmerkmale sind nur 
per Spracheingabe aktivierbar, die anderen 
Gerate- und Bedienfunktionen bleiben sowohl 15 
manuell wie per Sprache kommandierbar; 

• die Anzahl der manuellen Bedienelemente wird 
deutlich reduziert, einzelne Tasten bzw. Dreh- 
knopfe ubernehmen Mehrfachfunktion; per 
Sprache wird manuellen Bedienelementen ei- 20 
ne spezielle Funktion zugewiesen; nur wesent- 
liche Bedienfunktionen sind noch manuell an- 
steuerbar; die Basis der Bedienfunktionen ist 

die Sprachkommandierung. 

25 

38. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daft mit einem ein- 
zigen Einzelwortoder Mehrwortkommando eine 
Vielzahl unterschiedliche Gerate sowie Geratefunk- 
tionen ansprech- und modifizierbar sind und somit 30 
eine mehrstufige Vorgehensweise nicht oder nur in 
einem geringen Umfang erforderlich ist. 

39. Verfahren nach einem der vorhergehenden Anspru- 
che, dadurch gekennzeichnet, daft das Sprach- 35 
dialogsystem in Fahrzeugen fur einzelne oder meh- 
rere der im folgenden genannten Funktionen zur 
Anwendung kommt: 

• Bedienung einzelner oder mehrerer Gerate, *o 
wie z.B. Autotelefon, Autoradio (ggf. mit Kas- 
sette, CD-Wechsler, Soundsystem), Navigati- 
onssystem, Notruf, Bordmonitor, Klimaanlage, 
Heizung, Reiserechner, Beleuchtung, Schiebe- 
dach, Fensterheber, Sitzversteller; 45 

• Informationsabfrage von Parametern, wie z.B. 
Oldruck, -temperatur, Kuhlwassertemperatur, 
Verbrauch, Reifendruck; 

• Information uber notwendige MaBnahmen z.B. 

bei zu hoher Kuhlwassertemperatur, zu gerin- so 
gem Reifendruck; 

• Warnung des Fahrers bei Defekten des Fahr- 
zeugs. 

40. Verfahren nach Anspruch 39, dadurch gekenn- 55 
zeichnet, daB die sprachgesteuerte Auswahl eines 
neuen Senders im Autoradio nach einem der fol- 
genden Ablaufe erfolgt: 



• Kommandierung des Suchlaufs auf- bzw. ab- 
warts, 

• Spracheingabe der Senderfrequenz vorzugs- 
weise in der umgangssprachlichen Form, vor- 
zugsweise einschlieBlich der Frequenzanga- 
be, 

• Spracheingabe des gebrauchlichen Senderna- 
mens. 

41. Verfahren nach Anspruch 39, dadurch gekenn- 
zeichnet, daB bei der Klimaanlage die gewunschte 
Temperatur per Spracheingabe relativ und/oder 
vorzugsweise absolut festgelegt werden kann und 
vorzugsweise zusatzlich eine minimale bzw. maxi- 
male bzw. mittlere Temperatur bzw. Normaltempe- 
ratur kommandiert werden kann. 

42. Verfahren nach Anspruch 39, dadurch gekenn- 
zeichnet, daB dem Navigationssystem ein Zielort 
(Ortsname, StraBenname) durch Eingabe von 
Buchstabenkolonnen im "Buchstabiermode" mitge- 
teilt wird, wobei vorzugsweise auch der Anfang des 
Namens als Eingabe genugt und das Navigations- 
system gegebenfalls mehrere Kandidaten zur Aus- 
wahl anbietet. 

43. Verfahren nach einem der Anspruche 39 bis 42, da- 
durch gekennzeichnet, daB eine oder mehrere 
der folgenden benutzerspezifischen Namenslisten 
eingerichtet werden: 

• Liste zur Speicherung von Telefonnummern 
unter vorgebbaren Namen/Abkurzungen, 

• Liste zur Speicherung von Zielen fur das Navi- 
gationssystem unter vorgebbaren Namen/Ab- 
kurzungen, 

• Liste zur Speicherung von Funktionsnamen fur 
Kommandos oder Kommandofolgen, 

• Liste zur Speicherung von Senderfrequenzen 
des Autoradios unter vorgebbaren Senderna- 
men bzw. Abkurzungen. 

44. Verfahren nach einem der Anspruche 39 bis 43, da- 
durch gekennzeichnet, daB die Ausgabelautstar- 
ke der Sprachausgabe und des Kontrolltons oder 
der Kontrolltone, ggf. auch die Radiolautstarke, un- 
ter Berucksichtigung eines Oder mehrerer der fol- 
genden Parameter festgelegt Oder adaptiv ange- 
paBt werden: 

• Fahrzeuggeschwindigkeit 

• Geblaseeinstellung 

• Drehzahl 

• Offnungsbreite der Fenster und des Schiebe- 
daches 

• Fahrzeugtyp, 

• Wichtigkeit der Sprachausgabe in der jeweili- 
gen Dialogsituation. 
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45. Verfahren nach einem der Anspruche 22 bis 44, da- 
durch gekennzeichnet, daB die Push-to-talk-Ta- 
ste 

• entweder Mehrfachfunktionen wahrnimmt Oder 
beinhaltet, z.B. wahrend des Telefonierens 
( "Auflegen des Horers", "Abheben des Ho- 
rers") bzw. beim Neustart des Sprachdialogsy- 
stems bzw. beim Abbruch eines Telefonwahl- 
vorganges, 

• oder erganzt wird durch einen zusatzlichen 
Schalter oder eine zusatzliche Schaltposition, 
welche z.B. einen Neustart oder den Abbruch 
einer Funktion erlauben. 

46. Vorrichtung zum Ausf uhren des Verfahrens nach ei- 
nem der vorhergehenden Anspruche, bei welcher 
eine Spracheingabe-/-ausgabeeinheit uber eine 
Sprachsignalvorverarbeitungseinheit mit einer 
Spracherkennungseinheit verbunden ist, die wie- 
derum mit einer Abiauf-, Dialog- und Schnittstellen- 
steuerung verbunden ist, dadurch gekennzeich- 
net, daB die Spracherkennungseinheit aus einem 
sprecherunabhangigen Verbundworterkenner und 
einem sprecherabhangigen Zusatz-Spracherken- 
ner besteht, die beide ausgangsseitig mit einer Ein- 
heit zur syntaktisch-grammatikalischen bzw. se- 
mantischen Nachverarbeitung verbunden sind, die 
mit der Abiauf-, Dialog- und Schnittsteilensteue- 
rung verbunden ist. 

47. Vorrichtung nach Anspruch 46, dadurch gekenn- 
zeichnet, daB die Sprachsignalvorverarbeitungs- 
einheit eine Vorrichtung zur Gerauschreduktion 
und/oder eine Vorrichtung zur Echokompensation 
und/oder eine Vorrichtung zur Segmentierung ent- 
halt. 

48. Vorrichtung nach einem der Anspruche 46 oder 47, 
dadurch gekennzeichnet, daB die Spracheinga- 
be-/-ausgabeeinheit einen Sprachencoder, einen 
Sprachdecoder sowie einen Sprachspeicher ent- 
halt. 

49. Vorrichtung nach einem der Anspruche 46 bis 48, 
dadurch gekennzeichnet, daB die Abiauf-, Dialog- 
und Schnittstellensteuerung, die Sprachein-/-aus- 
gabe sowie die Sprachsignalvorverarbeitung, 
Spracherkennung, syntaktisch-grammatikalische 
und semantische Nachverarbeitung mittels Mikro- 
und Signalprozessoren, Speichern und Schnittstel- 
lenbausteine erfolgt, vorzugsweise aber mit einem 
einzigen digitalen Signal- oder Mikroprozessor so- 
wie dem erforderlichen externen Daten- und Pro- 
grammspeicher, den Interfaces sowie den zugeho- 
rigen Treiberbausteinen, einem Taktgenerator, ei- 
ner Steuerlogik und den fur SpracheinV-ausgabe 
erforderlichen Mikrofonen und Lautsprechern samt 
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zugehorigen Wandlern und Verstarkern sowie ge- 
gebenenfalls einer Push-to-talk(PTT)-Taste und ei- 
ner Abbruchtaste. 

50. Vorrichtung nach Anspruch 49, dadurch gekenn- 
zeichnet, daB uber ein oder mehrere Interfaces 

• Daten und/oder Parameter ladbar bzw. nach- 
ladbar sind, urn z.B. Verfahrensanderungen 
oder ein Sprachdialogsystem fur eine andere 
Sprache zu realisieren, 

• die auf einem separaten Rechner festgelegte 
oder modifizierte Syntaxstruktur, Dialogstruk- 
tur, Ablaufsteuerung, Sprachausgabe etc. auf 
das Sprachdialogsystem iibertragen werden 
( u off-linie Dialog-Editor"), 

• Status- oder Diagnoseinformationen vom 
Sprachdialogsystem angefordert und abgeholt 
werden konnen. 
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51. Vorrichtung nach Anspruch 49, dadurch gekenn- 
zeichnet, daB diese mit mehreren der anzusteu- 
ernden Gerate uber ein Bussystem oder ein ringfor- 
miges Netzwerk verknupft ist und daB uber diesen 
25 Bus bzw. das Netzwerk Steuerdaten und/oder Au- 
diosignale und/oder Statusmeldungen des Sprach- 
dialogsystems und/oder der zu bedienenden Gera- 
te ubertragen werden. 

30 52. Vorrichtung nach einem der Anspruche 46 bis 51 
fur die Anwendung in Fahrzeugen, dadurch ge- 
kennzeichnet, daB die einzelnen anzusteuernden 
Gerate nicht jeweils ein eigenes Sprachdialogsy- 
stem enthalten, sondern von einem einzigen ge- 

35 meinsamen Sprachdialogsystem bedient werden. 

53. Vorrichtung nach einem der Anspruche 46 bis 52, 
dadurch gekennzeichnet, daB eine oder mehrere 
Schnittstellen zu Fahrzeugkomponenten oder 

40 Fahrzeugrechnern bestehen, woruber permanente 
oder aktuelle Fahrzeugdaten dem Sprachdialogsy- 
stem mitgeteilt werden, wie z. B. Geschwindigkeit. 

54. Vorrichtung nach einem der Anspruche 46 bis 53, 
45 dadurch gekennzeichnet, daB diese Vorrichtung 

wahrend der Wartezeiten, in denen keine Sprach- 
ein- oder -ausgabe erfolgt, andere Funktionen z.B. 
des Radios, des Telefons o.a. ubernimmt. 

50 55. Vorrichtung nach einem der Anspruche 46 bis 54, 
dadurch gekennzeichnet, daB mittels eines er- 
weiterten Speichers ein multilinguales sprecherun- 
abhangiges Dialogsystem realisiert ist, wobei zwi- 
schen den Diaiogsystemen verschiedener Spra- 

55 chen umgeschaltet werden kann. 

56. Vorrichtung nach einem der Anspruche 46 bis 55, 
dadurch gekennzeichnet, daB ein optisches Dis- 
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play mit dem Sprachdialogsystem uber ein speziel- 
les Interface bzw. uber den BusanschluG gekoppelt 
ist. 

57. Vorrichtung nach einem der Anspruche 46 bis 56, 5 
dadurch gekennzeichnet, daB das vollstandige 
Sprachdialogsystem uber eine PCMCIA-Schnitt- 
stelle mit dem per Sprache zu steuernden bzw. zu 
bedienenden Gerat bzw. einem Host- Oder Applika- 
tionsrechner gekoppelt ist. 10 

58. Vorrichtung nach Anspruch 51 oder 57, dadurch 
gekennzeichnet, daft dieser Bus Oder dieses 
Netzwerk ein optischer Datenbus ist und hieruber 
sowohl Steuer- wie Audiosignale bzw. Statusmel- '5 
dungen des Sprachdiatogsystems und der zu be- 
dienenden Gerate ubertragen werden. 

Claims 20 

1. Method for automatic control of one or more appli- 
ances by voice commands or by voice dialogue in 
real-time operation, 

characterized by the following features: 25 



2. Method according to Claim 1 , characterized by the 
following features: 

• the voice commands (the voice dialogue) are 
(is) formed (carried out) on the basis of at least 
one syntax structure, at least one basic com- 
mand vocabulary and, if required, at least one 
speaker-specific additional command vocabu- 
lary; 

• the syntax structure or structures and the basic 
command vocabulary or vocabularies are pre- 
determined in speaker-independent form and 
are fixed during real-time operation; 

• the speaker-specific additional command vo- 55 
cabulary or vocabularies is or are entered and/ 

or amended by the (respective) speaker in that, 
during training phases within and/or outside re- 



al-time operation, an additional voice recogniz- 
er which operates using a speaker-dependent 
recognition method is trained by the (respec- 
tive) speaker to the speech-specific features of 
the (respective) speaker by entering the addi- 
tional commands one or more times; 
• in real-time operation, the voice dialogue and/ 
or the control of the appliance (of the applianc- 
es) are/is carried out as follows: 

voice commands entered by the (respec- 
tive) speaker are passed to a speaker-in- 
dependent word combination voice recog- 
nizer, which operates on the basis of pho- 
nemes and/or entire word models, and to 
the speaker-dependent additional voice 
recognizer and are (in each case) subject- 
ed there to feature extraction, and 

are investigated and classified in the 
word combination voice recognizer, on 
the basis of the features extracted 
there, for the presence of basic com- 
mands from the (respective) basic 
command vocabulary, in accordance 
with the (respective) predetermined 
syntax structure, and 
are investigated and classified in the 
speaker-dependent additional voice 
recognizer, on the basis of the features 
extracted there, for the presence of ad- 
ditional commands from the (respec- 
tive) additional command vocabulary; 



that function or those functions of the 
(respective) appliance to be controlled 
and which is or are associated with the 
identified voice command is or are 
then initiated, and/or 
the response or responses which is or 



20 



the entered voice commands are recognized by 
means of a speaker-independent word combi- 
nation voice recognizer and a speaker-depend- 
ent additional voice recognizer and are classi- 30 
f ied on the basis of their recognition probability, 
recognized permissible voice commands are 
checked for their plausibility, and that permissi- 
ble and plausible voice command having the 
greatest recognition probability is identified as 35 
the entered voice command, and those func- 
tions of the appliance or appliances and re- 
sponses of the voice dialogue system which are 
associated with this voice command are initiat- 
ed or generated. 40 



those commands and syntax structures of 
the two voice recognizers which have been 
classified as recognized with a specific 
probability are then combined to form hy- 
pothetical voice commands, and these are 
investigated and classified for their reliabil- 
ity and probability of recognition on the ba- 
sis of the predetermined syntax structure; 
the permissible hypothetical voice com- 
mands are then investigated on the basis 
of predetermined criteria for their plausibil- 
ity and, of those hypothetical voice com- 
mands which are recognized as being 
plausible, that with the highest recognition 
probability is selected and is identified as 
the voice command entered by the (re- 
spective) speaker; 
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are associated with the identified voice 
command is or are then generated on 
the basis of a predetermined voice di- 
alogue structure, in order to continue 
the voice dialogue. 

3. Method according to one of Claims 1 or 2, charac- 
terized in that the voice commands are entered 
acoustically, preferably using a hands-free device. 

4. Method according to one of the preceding claims, 
characterized in that acoustically entered voice 
commands are supplied, with the noise-level re- 
duced, to the two voice recognizers in that noise 
signals which are caused by steady-state or virtu- 
ally steady-state environmental noise in the speech 
signal reception channel are compensated for pref- 
erably by means of adaptive digital filtering meth- 
ods, upstream of the two voice recognizers. 

5. Method according to one of the preceding claims, 
characterized in that acoustically entered voice 
commands are supplied after echo compensation 
to the two voice recognizers, in that signals of a 
voice or music output unit which are fed back into 
the voice signal reception channel are compensat- 
ed for in the voice signal reception channel up- 
stream of the two voice recognizers, in particular 
upstream of the noise reduction unit, and preferably 
by means of adaptive digital filtering methods. 

6. Method according to one of the preceding claims, 
characterized in that the entered voice commands 
are combined block-by-block after digitization and, 
after being weighted, are converted by means of 
spectral transformation, preferably by means of a 
fast Fourier transformation (FFT), to the frequency 
band, and are then combined by magnitude forma- 
tion and subsequent hearing-related MEL filtering 
to form channel vectors, and in that they are then 
subjected to segmentation. 

7. Method according to Claim 6, characterized in that 

the segmentation is subdivided into coarse seg- 
mentation and fine segmentation. 

8. Method according to one of Claims 6 or 7, charac- 
terized in that the feature extraction in the speaker- 
independent word combination voice recognizer is 
carried out in such a way 

• that the channel vectors are transformed by dis- 
crete cosine transformation (DCT) into cepstral 
vectors, 

• that, in addition, the energy of the associated 
signal is calculated and is normalized, 

• that, for adaptation of the recognizer to the re- 
spective speaker and/or the respective trans- 



10 



15 



mission characteristics of the voice signal re- 
ception channel, the mean value of the cepstral 
vectors is calculated continuously and is sub- 
tracted from the cepstral vectors, 
• that the cepstral vectors from which the mean 
value of the cepstral vectors has been subtract- 
ed, and the calculated normalized signal ener- 
gy are combined to form cepstral mean free co- 
efficients (CMF vectors). 

Method according to one of the preceding claims, 
characterized in that the speaker-independent 
word combination recognizer operates using pho- 
neme-and/or entire-word-based hidden Markov 
models (HMM). 



1 0. Method according to Claim 9, characterized in that 

the classification is carried out using a Viterbi algo- 
rithm, and in that the Viterbi algorithm is preferably 
20 supplemented by predetermined word-sequence 
statistics. 

11. Method according to one of the preceding claims, 
characterized in that filling words or sounds or oth- 

25 er incorrect commands not included in the prede- 
termined basic vocabulary are also recognized as 
such during the classification process, and are seg- 
regated out. 

30 12. Method according to one of the preceding claims, 
characterized in that the speaker-independent 
word combination voice recognizer and the speak- 
er-dependent additional voice recognizer are sub- 
ject to the same signal pre-processing for the en- 
35 tered voice commands, preferably including the 
methods for noise reduction, echo compensation 
and segmentation. 

13. Method according to one of the preceding claims, 
40 characterized in that the additional voice recog- 
nizer operates as an individual word voice recog- 
nizer, preferably using the dynamic time normaliza- 
tion method. 

45 14. Method according to one of the preceding claims, 
characterized in that the speaker-independent 
word combination voice recognizer and the speak- 
er-dependent voice recognizer operate combined 
in a word combination mode. 
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15. Method according to one of the preceding claims, 
characterized in that, during real-time operation, 
the voice signal reception channel is continuously 
matched to the analogue transmission characteris- 
tic, in particular to the spatial acoustics and/or mi- 
crophone and/or amplifier and/or speaker charac- 
teristics. 
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16. Method according to one of Claims 1 to 15, char- 
acterized in that the predetermined basic com- 
mands are predetermined and stored in voice-cod- 
ed form, and/or the additional commands entered 
by the (respective) speaker in training phases and/ 
or voice commands entered in real-time operation 
are further processed on a voice-coded basis after 
they have been entered and/or are stored in non- 
volatile form, and in that coded voice commands 
which are intended to be output acoustically are 
voice-decoded before they are output. 

17. Method according to one of Claims 1 to 15, char- 
acterized in that the predetermined basic com- 
mands and/or the additional commands and/or the 
voice commands entered in real-time operation are 
stored in the form of text, and in that voice com- 
mands which are intended to be output acoustically 
are subjected to text-to-speech synthesis before 
they are output. 

18. Method according to one of the preceding claims, 
characterized in that the syntax structure and the 
speaker-independent commands are produced and 
are fixed in advance in the "off-line dialogue editing 
mode" in the laboratory, and are transferred to the 
word combination voice recognizer in the form of 
data files. 

19. Method according to one of the preceding claims, 
characterized in that 

• the word position in the voice commands can 
be varied by interchanging individual words in 
a command, and/or 

• predetermined synonymous words can be 
used for forming voice commands, and/or 

• the same function can be provided by voice 
commands having a different number of words. 

20. Method according to one of the preceding claims, 
characterized in that further words or sound units 
are added to the permissible vocabulary and/or 
word spotting rules are used in order to recognize 
and then to segregate out insertions or other com- 
mands which are not contained in the vocabulary. 

21 . Method according to one of the preceding claims, 
characterized in that the dialogue structure has 
the following characteristics: 

• flat hierarchy with only a small number of hier- 
archy levels, preferably one or two hierarchy 
levels, 

• inclusion of ellipses in the handling of the voice 
dialogue, 

• inclusion of help or information menus, 

• inclusion of queries from the voice dialogue 



system in the event of uncertain decisions by 
the recognizer, 

• inclusion of voice outputs in order to improve 
the recognition certainty by encouraging spe- 

5 cific ways of speaking. 

22. Method according to one of the preceding claims, 
characterized in that the voice recognition or the 
voice dialogue for controlling one or more appliance 

10 functions is activated by operating, preferably once, 
a push-to-talk key (PTT), and this activation is pref- 
erably acknowledged acoustically and/or visually. 

23. Method according to one of Claims 1 to 22, char- 
15 acterized in that the activation is terminated auto- 
matically if no voice input is made within a time 
which can be predetermined or is set adaptively to 
the respective user and/or after a query from the 
voice dialogue system, or when the dialogue select- 

20 ed by the user has been completed to plan. 

24. Method according to one of the preceding claims, 
characterized in that the voice dialogue or the en- 
try of voice commands can be terminated by enter- 

25 ing a predetermined specific termination voice com- 
mand at defined points in the voice dialogue, or at 
any time by operating a key, preferably the push-to- 
talk key or a terminate key. 

30 25. Method according to one of the preceding claims, 
characterized in that the voice dialogue system 
has one or more of the following performance fea- 
tures: 

35 • the specific (for example trained) voice com- 
mands from different speakers are saved, if re- 
quired, for subsequent re-use, 

• voice commands or names trained by the 
speaker are not only supplied to the recognition 

4 o process during the training phase, but their time 

profile is also recorded and they are supplied 
to data compression (voice coding), and are 
stored in a non-volatile form, 

• the voice commands trained by the speaker are 
45 processed during the training phase in such a 

manner that environmental noise is very largely 
compensated for during the recording process. 

26. Method according to one of the preceding claims, 
50 characterized in that the completion of a recogni- 
tion process is acknowledged acoustically by 
means of a monitoring tone. 

27. Method according to one of the preceding claims, 
55 characterized in that, in the event of safety-rele- 
vant and time- or cost-relevant decisions, the rec- 
ognition result is repeated acoustically (voice out- 
put), and the speaker has the capability to suppress 
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or to counteract the execution of the function asso- 
ciated with the voice command, by means of a voice 
command or by operating a switch, preferably the 
push-to-talk key or the terminate key. 

28. Method according to one of the preceding claims, 
characterized in that the voice dialogue system is 
coupled to a visual display medium, preferably an 
LCD display, a monitor or a display of a driven ap- 
pliance. 

29. Method according to Claim 28, characterized in 

that the visual display medium carries out individual 
ones or a number of the following functions: 

• output of the recognized voice commands for 
monitoring purposes, 

• display of the functions set by the end appliance 
as a reaction to the voice command, 

• display of various functions/alternatives, which 
are then set, selected or modified by voice com- 
mand. 

30. Method according to one of the preceding claims, 
characterized in that each speaker can set up his 
own name or abbreviation lists with one or more, or 
all, of the following features: 

• the name trained by the speaker for the speak- 
er-dependent recognizer represents a number 
chain, letter chain and/or command or a com- 
mand sequence which has been entered in the 
speaker-independent operating mode, 

• instead of once again entering the number 
chain, letter chain or command sequence, the 
user can enter the list designation and the 
name selected by him or, in addition to the 
name, can enter a suitable command which al- 
lows the correct list to be deduced, 

• the list can be expanded by further entries at 
any time by voice control, 

• the list can be deleted completely or selectively 
by voice control, 

• the list can be monitored for a voice command, 
with the name entered by the user and, if re- 
quired, the associated number chain, letter 
chain or commands being output acoustically, 

• the acoustic output of the list can be terminated 
at any desired time. 

31. Method according to one of the preceding claims, 
characterized in that a sequence of numbers 
(number string) can be spoken cohesively in one go 
or can be spoken block-by-block, with the voice in- 
put or the voice dialogue preferably having one or 
more, or all, of the following features: 

• each input pause is followed by an acknowl- 



edgement, by the last input block being repeat- 
ed by the voice output, 

• after acknowledgement by an "error" voice 
command or the like, the last input block is de- 

5 leted, and the remaining, stored blocks are out- 

put acoustically, 

• after acknowledgement by a "delete" voice 
command or the like, all the entered character 
blocks are deleted, 

w • after acknowledgement by a "repeat" voice 
command or the like, the previously stored 
blocks are output acoustically, 

• after acknowledgement by a "terminate" voice 
command or the like, the entry of the number 

15 string is completely terminated, 

• after acknowledgement, further numbers or 
number blocks can be entered, 

• after acknowledgement, the number input is 
terminated by a suitable "stop", "save" voice 

20 command or the like, 

• by entering a voice command such as "select" 
or the like, which starts an action/function, the 
entry is terminated and the action/function as- 
sociated with that voice command is initiated. 

25 

32. Method according to one of the preceding claims, 
characterized in that a sequence of letters (letter 
string) is spoken and is intended for selection of 
complex functions or for entering a large number of 
30 information items, with the letter string being en- 
tered cohesively or block-by-block, and the voice in- 
put or the voice dialogue preferably having one or 
more, or all, of the following features: 

35 • each input pause is followed by an acknowl- 
edgement, by the last input block being repeat- 
ed by the voice output, 

• after acknowledgement by an "error" voice 
command or the like, the last input block is de- 

40 leted, and the remaining, stored blocks are out- 

put acoustically, 

• after acknowledgement by a "delete" voice 
command or the like, all the entered letters are 
deleted, and another entry can then be made, 

45 • after acknowledgement by a "repeat" voice 
command or the like, the previously stored 
blocks are output acoustically, 

• after acknowledgement, further letters or letter 
blocks can be entered, 

so • if required, the letter string or the individual let- 
ter blocks are matched to a stored word list and 
the best-matching word or words is or are ex- 
tracted from that word list, 

• after acknowledgement by a "terminate" voice 
55 command or the like, the entry of the letter 

string is completely terminated, 

• after acknowledgement, the letter input is ter- 
minated by a "stop", "save" voice command or 



26 



51 

the like, 

• by entering a voice command such as "select" 
or the like, which starts an action/function, the 
entry is terminated and the action/function as- 
sociated with that voice command is initiated. 

33. Method according to one of Claims 31 or 32, char- 
acterized in that the output of the previously spo- 
ken numbers which follows the "error" voice com- 
mand or the like or the "repeat" voice command or 
the tike uses the same block formation as when it 
was entered. 

34. Method according to one of the preceding claims, 
characterized in that the output volume of the 
voice output and of the monitoring tone is matched 
to the environmental noise, with the intensity and 
characteristic of the environmental noise being de- 
tected during the voice pauses. 

35. Method according to one of the preceding claims, 
characterized in that the access to the voice dia- 
logue system and/or the access to user-specific da- 
ta/commands are made only by entering specific 
command words or by entering specific command 
words from an authorized speaker whose voice 
characteristics are known to the voice dialogue sys- 
tem, and are checked by it. 

36. Method according to one of the preceding claims, 
characterized in that longer-lasting voice outputs 
(for example information menus) can be ended pre- 
maturely by spoken or manual terminate com- 
mands. 

37. Method according to one of the preceding claims, 
characterized in that the voice dialogue system 
supplements or replaces the manual control of the 
above functions (for example by switches, keys, 
pushbuttons) in one of the following forms: 

• the voice command process exists alongside 
manual control, so that control can be carried 
out or continued at any time manually; 

• a number of specific performance features can 
be activated only by voice input, while the other 
appliance and control functions can still be 
commanded both manually and by voice; 

• the number of manual control elements is con- 
siderably reduced with individual keys or push- 
buttons carrying out multiple functions; voice is 
used to assign a specific function to manual 
control elements; only major control functions 
can still be actuated manually; the basis of the 
control functions is the voice command proc- 
ess. 

38. Method according to one of the preceding claims, 



52 

characterized in that a large number of different 
appliances and appliance functions can be ad- 
dressed and modified by a single individual word or 
multiple word command, so that there is no need 
5 for a multi-step procedure, or such a procedure is 
required only to a minor extent. 

39. Method according to one of the preceding claims, 
characterized in that the voice dialogue system is 

10 used in motor vehicles, for one or more of the func- 
tions cited in the following text: 

• control of one or more appliances, such as a 
car telephone, car radio (possibly with a cas- 

*5 sette, CD changer, sound system), navigation 

system, paging, an on-board monitor, an air- 
conditioning system, heating, a travel compu- 
ter, lighting, a sunroof, a window winder, a seat 
adjuster; 

2 o • information checking of parameters, such as oil 
pressure and temperature, cooling-water tem- 
perature, consumption, tyre pressure; 

• information relating to required actions, for ex- 
ample excessively high cooling-water temper- 
as ature, excessively low tyre pressure; 

• warning the driver of defects in the vehicle. 

40. Method according to Claim 39, characterized in 
that voice-controlled selection of a new transmitter 

30 for the car radio is carried out using one of the fol- 
lowing sequences: 

• command for an up or down search, 

• voice input of the transmitter frequency, prefer- 
35 ably in the normal language form, preferably in- 
cluding an indication of the frequency, 

• voice input of the normal transmitter name. 

41. Method according to Claim 39, characterized in 
that, for the air-conditioning system, the desired 
temperature can be defined relatively and/or pref- 
erably absolutely by voice input and, preferably and 
additionally, a minimum, maximum or mean temper- 
ature or normal temperature can be commanded. 

45 

42. Method according to Claim 39, characterized in 
that a destination location (location name, road 
name) can be reported to the navigation system by 
entering letter strings in the "spelling mode", with 

so the start of the name preferably also being sufficient 
as the entry, and the navigation system if necessary 
offering a number of candidates for selection. 

43. Method according to one of Claims 39 to 42, char- 
55 acterized in that one or more of the following user- 
specific name lists are set up: 

• list for storing telephone numbers under 
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names/abbreviations which can be predeter- 
mined, 

• list for storing destinations for the navigation 
system under names/abbreviations which can 
be predetermined, 

• list for storing function names for commands or 
command sequences, 

• list for storing transmitter frequencies for the 
car radio under transmitter names or abbrevia- 
tions which can be predetermined. 

44. Method according to one of Claims 39 to 43, char- 
acterized in that the output volume of the voice out- 
put and of the monitoring tone or monitoring tones, 
and possibly the radio volume as well, are defined 
or adaptively matched taking account of one or 
more of the following parameters: 



vehicle speed 
fan setting 
engine speed 

extent to which the windows and sunroof are 
open 

vehicle type 

importance of the voice output in the respective 
dialogue situation. 



45. Method according to one of Claims 22 to 44, char- 
acterized in that the push-to-talk key 

• either carries out or includes multiple functions, 
for example ("place the handset on the rest", 
"lift-off the handset") when telephoning or when 
restarting the voice dialogue system or termi- 
nating a telephone dialling process, 

• or is supplemented by an additional switch or 
an additional switch position which, for exam- 
ple, allow a function to be restarted or terminat- 
ed. 

46. Apparatus for carrying out the method according to 
one of the preceding claims, in which a voice input/ 
output unit is connected via a voice signal pre- 
processing unit to a voice recognition unit, which is 
in turn connected to a sequence, dialogue and in- 
terface controller, characterized in that the voice 
recognition unit comprises a speaker-independent 
word combination recognizer and a speaker-de- 
pendent additional voice recognizer, both of whose 
output sides are connected to the unit for syntax- 
grammatical or semantic post-processing, which is 
connected to the sequence, dialogue and interface 
controller. 

47. Apparatus according to Claim 46, characterized in 
that the voice signal pre-processing unit contains 
an apparatus for noise reduction and/or an appara- 
tus for echo compensation and/or an apparatus for 



segmentation. 

48. Apparatus according to one of Claims 46 or 47, 
characterized in that the voice input/output unit 

5 contains a voice coder, a voice decoder and a voice 
memory. 

49. Apparatus according to one of Claims 46 to 48, 
characterized in that the sequence, dialogue and 

10 interface controller, the voice input/output and the 
voice signal pre-processing, voice recognition, syn- 
tax-grammatical and semantic post-processing are 
carried out by means of microprocessors and signal 
processors, memories and interface modules, but 

15 preferably with a single digital signal or microproc- 
essor and the necessary external data and program 
memory, the interfaces and the associated driver 
modules, a clock generator, control logic and the mi- 
crophones and loudspeakers required for voice in- 

20 putting/outputting, together with associated trans- 
ducers and amplifiers and, if required, a push-to- 
talk (PTT) key and a terminate key. 

50. Apparatus according to Claim 49, characterized in 
25 that, via one or more interfaces, 

• data and/or parameters can be loaded or re- 
loaded in order, for example to implement 
method changes or a voice dialogue system for 

30 another language, 

• the syntax structure, dialogue structure, se- 
quence control and voice output etc. which are 
defined or modified on a separate computer are 
transferred to the voice dialogue system ("off- 

35 line dialogue editor"), 

• status or diagnosis information can be request- 
ed and retrieved from the voice dialogue sys- 
tem. 



40 51 . Apparatus according to Claim 49, characterized in 
that this apparatus is linked by a bus system or a 
ring network to a number of the appliances to be 
actuated, and in that control data and/or audio sig- 
nals and/or status messages relating to the voice 

45 dialogue system and/or to the appliances to be con- 
trolled are transmitted via this bus or the network. 

52. Apparatus according to one of Claims 46 to 51 for 
use in vehicles, characterized in that the individual 

so appliances to be actuated do not each contain their 
own voice dialogue system, but are controlled from 
a single, common voice dialogue system. 

53. Apparatus according to one of Claims 46 to 52, 
55 characterized in that one or more interfaces exist 

for vehicle components or vehicle computers, via 
which permanent or up-to-date vehicle data, such 
as the speed, are reported to the voice dialogue 
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system. 

54. Apparatus according to one of Claims 46 to 53, 
characterized in that this apparatus carries out 
other functions relating, for example, to the radio, 5 
the telephone or the like during waiting times in 
which there is no voice input or output. 

55. Apparatus according to one of Claims 46 to 54, 
characterized in that a multilingual speaker-inde- 10 
pendent dialogue system is provided by means of 

an enlarged memory, with the capability to switch 
between the dialogue systems of different languag- 
es. 

15 

56. Apparatus according to one of Claims 46 to 55, 
characterized in that a visual display is coupled to 
the voice dialogue system via a special interface or 
via the bus connection. 

20 

57. Apparatus according to one of Claims 46 to 56, 
characterized in that the entire voice dialogue sys- 
tem is coupled via a PCMCIA interface to the appli- 
ance which is to be operated or controlled by voice, 
and/or to a host or application computer. 25 

58. Apparatus according to Claim 51 or 57, character- 
ized in that this bus or this network is an optical 
data bus, and both control and audio signals and/ 

or status messages for the voice dialogue system 30 
and the appliances to be controlled are transmitted 
via this data bus. 



Revendications 

1 . Procede de commande automatique d'un ou de plu- 
sieurs dispositifs par des instructions vocales ou 
par un dialogue vocal en fonctionnement en temps 
reel, 

caracterise par les caracteristiques suivantes : 



2. Procede selon la revendication 1 , caracterise par 
les caracteristiques suivantes : 

• les instructions vocales (le dialogue vocal) sont 
(est) formees (mis en oeuvre) sur la base d'au 
moins une structure syntaxique, au moins un 
vocabulaire destructions elementaires et, si 
necessaire, au moins un vocabulaire destruc- 
tions supplementaires specifique au locuteur ; 

• la (les) structure(s) syntaxique(s) et le(s) voca- 
bulaire^) destructions elementaires sont pre- 
determines dans une forme independante du 
locuteur et sont etablis durant le fonctionne- 
ment en temps reel ; 

• le(s) vocabulaire(s) destructions supplemen- 
taires specifique(s) au locuteur est (sont) entre 
(s) et/ou modifie(s) par le locuteur (respectif) 
par le fait que, durant des phases d'enseigne- 
ment dans le cadre et/ou en dehors du fonc- 
tionnement en temps reel, le locuteur (respec- 
tif) enseigne a une unite de reconnaissance vo- 
cale supplemental fonctionnant a I'aide d'un 
procede de reconnaissance dependant du lo- 
cuteur les caracteristiques specifiques a la pa- 
role du locuteur (respectif) par entree des ins- 
tructions supplementaires une ou plusieurs 
fois ; 

• en fonctionnement en temps reel, le dialogue 
vocal et/ou la commande du dispositif (des dis- 
positifs) sont/est mis(e) en oeuvre comme suit : 

des instructions vocales entrees par le lo- 
cuteur (respectif) sont transmises a une 
unite de reconnaissance vocale de combi- 
naisons de mots independante du locuteur, 
laquelle fonctionne sur la base de phone- 
mes et/ou de modeles de mots entiers, et 
a Punite de reconnaissance vocale supple- 
mentaire dependant du locuteur, et y font 
Pobjet (dans chaque cas) d'une extraction 
de caracteristiques, et 
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les instructions vocales entrees sont recon- 
nues au moyen d'une unite de reconnaissance 
vocale de combinaisons de mots independante 45 
du locuteur et d'une unite de reconnaissance 
vocale supplemental dependant du locuteur, 
et sont classees sur la base de leur probability 
de reconnaissance, 

la plausibilite des instructions vocales admissi- so 
bles reconnues est verifiee, et I'instruction vo- 
cale admissible et plausible ayant la plus gran- 
de probability de reconnaissance est identified 
comme I'instruction vocale entree, et les fonc- 
tions du dispositif ou des dispositifs et les re- 55 
ponses du systeme de dialogue vocal asso- 
ciees a cette instruction vocale sont lancees ou 
generees. 



sont examinees et classees dans I'uni- 
te de reconnaissance vocale de com- 
binaisons de mots, sur la base des ca- 
racteristiques qui y ont ete extraites, 
pour ce qui est de la presence des- 
tructions elementaires issues du voca- 
bulaire destructions elementaires 
(respectif), conformement a la structu- 
re syntaxique predeterminee (respec- 
tive), et 

sont examinees et classees dans I'uni- 
te de reconnaissance vocale supple- 
mentaire dependant du locuteur, sur la 
base des caracteristiques qui y ont ete 
extraites, pour ce qui est de la presen- 
ce destructions supplementaires is- 
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sues du vocabulaire constructions 
supplementaires (respectif) ; 

- les instructions et structures syntaxiques 
des deux unites de reconnaissance vocale 
qui ont ete classees comme ayant ete re- 
connues avec une probabilite specifique 
sont alors combinees pour former des ins- 
tructions vocales hypothetiques, et celles- 
ci sont examinees et classees pour ce qui 
est de leur fiabilite et probabilite de recon- 
naissance, sur la base de la structure syn- 
taxique predeterminee ; 
les instructions vocales hypothetiques ad- 
missibles sont alors examinees sur la base 
de criteres predetermines pour ce qui est 
de leur plausibilite et, parmi les instructions 
vocales hypothetiques reconnues comme 
etant plausibles, celle ayant la plus grande 
probabilite de reconnaissance est selec- 
tionnee et identifiee comme Instruction 
vocale entree par le locuteur (respectif) ; 

- la (les) fonction(s) du dispositif a com- 
mander associee(s) a instruction vo- 
cale identifiee est (sont) alors lancee 
(s), et/ou 

la (les) reponse(s) associee(s) a I'ins- 
truction vocale identifiee est (sont) 
alors generee(s) sur la base d'une 
structure de dialogue vocal predeter- 
minee, de facon a poursuivre le dialo- 
gue vocal. 

Procede selon Tune des revendications 1 ou 2, ca- 
racterise en ce que les instructions vocales sont 
entrees par voie acoustique, de preference par 
commande en parole libre. 

Procede selon Tune des revendications preceden- 
tes, caracterise en ce que les instructions vocales 
entrees par voie acoustique sontfournies, avec une 
reduction du niveau de bruit, aux deux unites de re- 
connaissance vocale, par le fait que les signaux de 
bruit engendres par le bruit ambiant en regime sta- 
tionnaire ou quasi stationnaire et presents dans la 
voie de reception des signaux vocaux sont compen- 
ses, de preference au moyen de procedes de filtra- 
ge numerique adaptatif, en amont des deux unites 
de reconnaissance vocale. 

Procede selon Tune des revendications preceden- 
tes, caracterise en ce que les instructions vocales 
entrees par voie acoustique sont fournies, apres 
compensation d'echo, aux deux unites de recon- 
naissance vocale, par le fait que les signaux d'une 
unite de sortie vocale ou musicale reinjectes dans 
la voie de reception des signaux vocaux sont com- 



penses dans la voie de reception des signaux vo- 
caux en amont des deux unites de reconnaissance 
vocale, en particulier en amont de I'unite de reduc- 
tion du bruit, et de preference au moyen de proce- 
5 des de filtrage numerique adaptatif. 

6. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que les instructions vocales 
entrees sont combinees bloc par bloc suite a leur 

w numeration et, suite a leur ponderation, sont con- 
verties au moyen d'une transformation spectrale, 
de preference d'une transformation de Fourier rapi- 
de (FFT), dans le domaine frequentiel, et sont en- 
suite combinees par formation d'amplitudes puis 
15 par filtrage MEL auditif pour former des vecteurs de 
voie, et en ce qu'elles font ensuite I'objet d'une seg- 
mentation. 

7. Procede selon la revendication 6, caracterise en 
20 ce que la segmentation est subdivisee en une seg- 
mentation grossiere et une segmentation fine. 

8. Procede selon I'une des revendications 6 ou 7, ca- 
racterise en ce que I'extraction des caracteristi- 

25 ques dans I'unite de reconnaissance vocale de 
combinaisons de mots independante du locuteur 
est mise en oeuvre de telle sorte que 

• les vecteurs de voie sont transformed par une 
30 transformation en cosinus discrete (DCT) en 

vecteurs cepstraux, 

• I'energie du signal associe est, de plus, calcu- 
lee et normalisee, 

• en vue de I'adaptation de I'unite de reconnais- 
35 sance au locuteur respectif et/ou aux caracte- 

ristiques de transmission respectives de la voie 
de reception des signaux vocaux, la valeur 
moyenne des vecteurs cepstraux est calculee 
de fagon continue et soustraite des vecteurs 
40 cepstraux, 

• les vecteurs cepstraux desquels la valeur 
moyenne des vecteurs cepstraux a ete sous- 
traite et I'energie calculee normalisee du signal 
sont combines pour former des coefficients 

45 cepstraux sans valeur moyenne (vecteurs 

CMF). 

9. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que I'unite de reconnaissan- 
so ce de combinaisons de mots independante du lo- 
cuteur fonctionne durant le processus de classe- 
ment a I'aide de modeles de Markov caches (HMM) 
a base de phonemes et/ou de mots entiers. 

55 10. Procede selon la revendication 9, caracterise en 
ce que le classement est mis en oeuvre a I'aide d'un 
algorithme de Viterbi, et en ce que I'algorithme de 
Viterbi est de preference complete par une statisti- 
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que de sequences de mots predetermine. 

11. Procede selon Tune des revendications preceden- 
tes, caracterise en ce que, de plus, les mots de 
remplissage ou sons ou autres instructions incor- 5 
rectes non inclus dans le vocabulaire elementaire 
predetermine sont egalement reconnus comme tels 
durant le processus de classement, et sont classes 

en consequence puis mis a part. 

w 

12. Procede selon Tune des revendications preceden- 
tes, caracterise en ce que {'unite de reconnaissan- 
ce vocale de combinaisons de mots independante 
du locuteur et I'unite de reconnaissance vocale sup- 
plemental dependant du locuteur font I'objet du 15 
meme pretraitement du signal pour les instructions 
vocales entrees, ainsi que, de preference, des pro- 
cedes de reduction du bruit, de compensation 
d'echo et de segmentation. 

20 

13. Procede selon Tune des revendications preceden- 
tes, caracterise en ce que I'unite de reconnaissan- 
ce vocale supplemental fonctionne comme une 
unite de reconnaissance vocale de mots indivi- 
duals, de preference a Paide d'un procede de nor- 25 
malisation temporelle dynamique. 

14. Procede selon Pune des revendications preceden- 
tes, caracterise en ce que Punite de reconnaissan- 
ce vocale de combinaisons de mots independante 30 
du locuteur et I'unite de reconnaissance vocale de- 
pendant du locuteur fonctionnent en combinaison 
dans un mode de combinaison de mots. 

15. Procede selon Pune des revendications preceden- 35 
tes, caracterise en ce que, durant le fonctionne- 
ment en temps reel, il se produit une adaptation 
continue de la voie de reception des signaux vo- 
caux a la caracteristique de transmission analogi- 
que, en particulier aux caracteristiques de Pacous- *o 
tique ambiante et/ou du microphone et/ou de Pam- 
plificateur et/ou du locuteur. 

16. Procede selon Pune des revendications 1 a 15, ca- 
racterise en ce que les instructions elementaires 
predetermines sont predetermines et stockees 
sous la forme d'un codage vocal et/ou les instruc- 
tions supplementaires entrees par le locuteur (res- 
pectif) dans les phases d'enseignement et/ou les 
instructions vocales entrees en fonctionnement en so 
temps reel font I'objet d'un traitement supplemen- 
taire sur la base d'un codage vocal, apres avoir ete 
entrees, et/ou sont stockees sous une forme non 
volatile, et en ce que les instructions vocales co- 
dees destines a etre fournies en sortie par voie ss 
acoustique font I'objet d'un decodage vocal avant 
d'etre fournies en sortie. 



17. Procede selon Pune des revendications 1 a 15, ca- 
racterise en ce que les instructions elementaires 
predetermines et/ou les instructions supplemen- 
taires et/ou les instructions vocales entrees en fonc- 
tionnement en temps reel sont stockees sous forme 
textueile, et en ce que les instructions vocales des- 
tinees a etre fournies en sortie par voie acoustique 
font I'objet d'une synthese texte-parole avant d'etre 
fournies en sortie. 

18. Procede selon Pune des revendications preceden- 
tes, caracterise en ce que la structure syntaxique 
et les instructions independantes du locuteur sont 
produites et etablies a I'avance dans le « mode 
d'edition du dialogue hors-ligne » dans le laboratoi- 
re, et sont transferees a I'unite de reconnaissance 
vocale de combinaisons de mots sous la forme de 
fichiers de donnees. 

19. Procede selon Pune des revendications preceden- 
tes, caracterise en ce que 

• il est possible de faire varier la position des 
mots dans les instructions vocales par permu- 
tation des mots individuels d'une instruction, et/ 
ou 

• il est possible d'utiliser des mots synonymes 
predetermines pour former des instructions vo- 
cales, et/ou 

• il est possible d'offrir la meme fonction par le 
biais destructions vocales presentant un nom- 
bre de mots different. 

20. Procede selon Pune des revendications preceden- 
tes, caracterise en ce que d'autres mots ou unites 
phonetiques sont ajoutes au vocabulaire admissi- 
ble, ou des regies de localisation de mots sont uti- 
lises dans le but de reconnaitre puis de mettre a 
part des insertions ou d'autres instructions qui ne 
sont pas contenues dans le vocabulaire. 

21. Procede selon Pune des revendications preceden- 
tes, caracterise en ce que la structure de dialogue 
presente les caracteristiques suivantes : 

• hierarchie plate ne comprenant qu'un petit 
nombre de niveaux hierarchiques, de preferen- 
ce un ou deux niveaux hierarchiques, 

• inclusion d'ellipses lors du deroulement du dia- 
logue vocal, 

• inclusion de menus d'aide ou d' information, 

• inclusion d'interrogations emanant du systeme 
de dialogue vocal en cas de decisions incertai- 
nes par I'unite de reconnaissance, 

• inclusion de sorties vocales dans le but d'ame- 
liorer la certitude de reconnaissance en encou- 
rageant des facons de parler specifiques. 
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22. Procede selon Tune des revendications preceden- 
tes, caracterise en ce que la reconnaissance vo- 
cale ou le dialogue vocal destines a commander 
une ou piusieurs fonctions de dispositif(s) sont ac- 
tives en actionnant, de preference une seule fois, 
une touche du type « appuyer pour parler » (PTT), 
et cette activation est de preference confirmee par 
voie acoustique et/ou visuelle. 

23. Procede selon Tune des revendications 1 a 22, ca- 
racterise en ce qu'il est mis automatiquement fin 
a I'activation si aucune entree vocale n'est faite 
dans un intervalle de temps qui peut etre predeter- 
mine ou qui est etabli de facon adaptative en fonc- 
tion de I'utilisateur respectif et/ou suite a une inter- 
rogation emanantdu systeme de dialogue vocal, ou 
lorsque le dialogue selectionne par I'utilisateur a ete 
mene a bien. 

24. Procede selon Tune des revendications preceden- 
tes, caracterise en ce qu'il peut etre mis fin au dia- 
logue vocal ou a I'entree destructions vocales en 
entrant une instruction vocale de fin specifique pre- 
determine en des points definis dans le dialogue 
vocal, ou a tout moment en actionnant une touche, 
de preference la touche du type « appuyer pour 
parler » ou une touche de fin. 

25. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que le systeme de dialogue 
vocal presente une ou piusieurs des caracteristi- 
ques de performance suivantes : 

• les instructions vocales specifiques (par exem- 
ple enseignees) emanant de differents locu- 
teurs sont sauvegardees, si necessaire, en vue 
d'une reutilisation ulterieure, 

• les commandes vocales ou noms enseignes 
par le locuteur non seulement sont fournis au 
processus de reconnaissance durant la phase 
d'enseignement, mais leur profil temporel est 
egalement enregistre et ils sont soumis a une 
compression de donnees (codage vocal), et 
sont stockes sous une forme non volatile, 

• les commandes vocales enseignees par le lo- 
cuteur sont traitees durant la phase d'ensei- 
gnement de telle maniere que le bruit ambiant 
soit tres largement compense durant le proces- 
sus d'enregistrement. 

26. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que I'achevement d'un pro- 
cessus de reconnaissance est confirme par voie 
acoustique au moyen d'un son de controle. 

27. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que, de preference en cas 
de decisions concernant la securite et concernant 
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le temps ou le cout, le resultat de la reconnaissance 
est repete par voie acoustique (sortie vocale), et le 
locuteur a la possibility de supprimer ou de s'oppo- 
ser a I'execution de la fonction associee a I'instruc- 
s tion vocale au moyen d'une instruction vocale ou en 
actionnant un commutateur, de preference la tou- 
che du type « appuyer pour parler » ou la touche de 
fin. 

10 28. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que le systeme de dialogue 
vocal est couple a un support d'affichage visuel, de 
preference un affichage LCD, un moniteur ou un af- 
fichage d'un dispositif pilote. 

29. Procede selon la revendication 28, caracterise en 
ce que le support d'affichage visuel met en oeuvre 
des fonctions individuelles ou un certain nombre de 
fonctions parmi les fonctions suivantes : 

• sortie des instructions vocales reconnues a des 
fins de controle, 

• affichage des fonctions etablies par le dispositif 
terminal en reaction a Instruction vocale, 

25 • affichage de diverses fonctions/options, qui 
sont ensuite etablies, selectionnees ou modi- 
fies par I'instruction vocale. 

30. Procede selon I'une des revendications preceden- 
ce tes, caracterise en ce que chaque locuteur peut 

creer ses propres listes de noms ou d'abreviations 
comprenant une ou piusieurs, ou la totalite, des ca- 
racteristiques suivantes : 

35 • le nom enseigne par le locuteur pour I'unite de 
reconnaissance dependant du locuteur repre- 
sente une chaine de caracteres, une chaine de 
lettres et/ou une instruction ou une sequence 
destructions qui a ete entree dans le mode de 

40 fonctionnement independant du locuteur, 

• au lieu d'entrer une nouvelle fois la chaine de 
caracteres, la chaine de lettres ou la sequence 
destructions, I'utilisateur peut entrer la desi- 
gnation d'une liste et le nom selectionne par lui 

45 ou, outre le nom, il peut entrer une instruction 

adequate permettant de deduire la liste correc- 
te, 

• la liste peut etre elargie par d'autres entrees, a 
tout moment, par commande vocale, 

50 • la liste peut etre effacee completement ou se- 
lectivement par commande vocale, 

• la liste peut etre controlee pour detecter une 
instruction vocale, les noms entres par I'utilisa- 
teur et, si necessaire, la chaine de caracteres, 

55 la chaine de lettres ou les commandes asso- 

ciees etant fournis en sortie par voie acousti- 
que, 

• il peut etre mis fin a tout moment a la sortie 
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acoustique de la liste. 

31. Procede selon Tune des revendications preceden- 
tes, caracterise en ce qu'une sequence de carac- 
teres (chaine de caracteres) peut etre enoncee de 5 
maniere cohesive d'un seul coup, ou bloc par bloc, 
I'entree vocale ou le dialogue vocal presentant de 
preference une ou plusieurs, voire la totalite, des 
caracteristiques suivantes : 

10 

• chaque pause d'entree est suivie d'une confir- 
mation, par repetition par la sortie vocale du 
dernier bloc d'entree, 

• apres confirmation par une instruction vocale 

« erreur » ou assimilee, le dernier bloc d'entree 15 
est efface, et les blocs stockes restants sont 
fournis en sortie par voie acoustique, 

• apres confirmation par une instruction vocale 
« effacer » ou assimilee, tous les blocs de ca- 
racteres entres sont effaces, 20 

• apres confirmation par une instruction vocale 
« repeter » ou assimilee, les blocs precedem- 
ment stockes sont fournis en sortie par voie 
acoustique, 

• apres confirmation par une instruction vocale 25 
« fin » ou assimilee, il est mis entierement fin a 
I'entree de la chaine de caracteres, 

• apres confirmation, d'autres caracteres ou 
blocs de caracteres peuvent etre entres, 

• apres confirmation, il est mis fin a I'entree de 30 
caracteres par une instruction vocale adequate 

« stop », « sauvegarder » ou assimilee, 

• par I'entree d'une instruction vocale telle que 
« selectionner » ou assimilee, laquelle demar- 

re une action/fonction, il est mis fin a I'entree et 35 
l'action/la fonction associee a cette instruction 
vocale est lancee. 

32. Procede selon I'une des revendications preceden- 
tes, caracterise en ce qu'une sequence de lettres *o 
(chaine de lettres) est enoncee, laquelle est desti- 
nee a la selection de fonctions complexes ou a I'en- 
tree d'un grand nombre d'elements d'information, la 
chaine de lettres etant entree de maniere cohesive, 

ou bloc par bloc, et I'entree vocale ou le dialogue 45 
vocal presentant de preference une ou plusieurs, 
voire la totalite, des caracteristiques suivantes : 

• chaque pause d'entree est suivie d'une confir- 
mation, par repetition par la sortie vocale du so 
dernier bloc d'entree, 

• apres confirmation par une instruction vocale 
« erreur » ou assimilee, le dernier bloc d'entree 
est efface, et les blocs stockes restants sont 
fournis en sortie par voie acoustique, 55 

• apres confirmation par une instruction vocale 
« effacer » ou assimilee, toutes les lettres en- 
trees sont effacees, et une nouvelle entree peut 
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alors etre faite, 

• apres confirmation par une instruction vocale 
« repeter » ou assimilee, les blocs precedem- 
ment stockes sont fournis en sortie par voie 
acoustique, 

• apres confirmation, d'autres lettres ou blocs de 
lettres peuvent etre entres, 

• si necessaire, la chaine de lettres ou les blocs 
de lettres individuels sont mis en correspon- 
dance avec une liste de mots stockee et le(s) 
mot(s) correspondant le mieux en est (sont) ex- 
trait(s), 

• apres confirmation par une instruction vocale 
« fin » ou assimilee, il est mis entierement fin a 
I'entree de la chaine de lettres, 

• apres confirmation, il est mis fin a I'entree de 
lettres par une instruction vocale « stop », 
« sauvegarder » ou assimilee, 

• par I'entree d'une instruction vocale telle que 
« selectionner » ou assimilee, laquelle demar- 
re une action/fonction, il est mis fin a I'entree et 
l'action/la fonction associee a cette instruction 
vocale est lancee. 

33. Procede selon I'une des revendications 31 ou 32, 
caracterise en ce que lors de la sortie des carac- 
teres enonces precedents qui suit I'instruction vo- 
cale « erreur » ou assimilee ou I'instruction vocale 
« repeter » ou assimilee, on utilise la meme forma- 
tion de blocs que lors de I'entree. 

34. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que le volume de sortie de 
la sortie vocale et du son controle est adaptee au 
bruit ambiant, I'intensite et la caracteristique du 
bruit ambiant etant detectees durant les pauses vo- 
cales. 

35. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que I'acces au systeme de 
dialogue vocal ou I'acces a des donnees/instruc- 
tions specifiques a I'utilisateur se font uniquement 
par entree de mots destruction specifiques ou par 
entree de mots destruction specifiques emanant 
d'un locuteur autorise dont les caracteristiques vo- 
cales sont connues du systeme de dialogue vocal, 
et sont verifiees par lui. 

36. Procede selon I'une des revendications preceden- 
tes, caracterise en ce qu'il est possible de mettre 
fin prematurement aux sorties vocales plus longues 
(par exemple les menus d'information) a Paide des- 
tructions de fin enoncees ou manuelles. 

37. Procede selon I'une des revendications preceden- 
tes, caracterise en ce que le systeme de dialogue 
vocal complete ou remplace la commande manuel- 
le des fonctions ci-dessus (par exemple par des 
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commutateurs, des touches, des boutons rotatifs) 
dans Tune des formes suivantes : 

• le processus a instructions vocales existe en 
plus de la commande manuelle, de sorte que 
la commande puisse, a tout moment, etre mise 
en oeuvre ou se poursuivre manuellement ; 

• un certain nombre de caracteristiques de per- 
formance specifiques ne peuvent etre activees 
que par entree vocale, tandis que les autres 
fonctions de dispositif(s) et de commande peu- 
vent toujours etre commandees tant manuelle- 
ment qu'a la voix ; 

• le nombre d'elements de commande manuelle 
est considerablement reduit avec des touches 
ou boutons rotatifs individuels assurant des 
fonctions multiples ; la voix est utilisee pour af- 
fecter une fonction specifique a des elements 
de commande manuelle ; seules les fonctions 
de commande principales peuvent encore etre 
actionnees manuellement ; les fonctions de 
commande se basent sur le processus a ins- 
tructions vocales. 

38. Procede selon Tune des revendications preceden- 
tes, caracterise en ce qu'un grand nombre de dis- 
positifs et de fonctions de dispositifs differents peu- 
vent etre adresses et modifies par un seul mot in- 
dividuel ou une instruction a mots multiples, si bien 
qu'il n'y a pas besoin de procedure a etapes multi- 
ples, ou qu'une telle procedure n'est necessaire 
que dans une faible mesure. 

39. Procede selon Tune des revendications preceden- 
tes, caracterise en ce que le systeme de dialogue 
vocal est utilise dans des vehicules automobiles, 
pour chacune ou plusieurs des fonctions enume- 
rees dans le texte qui suit : 

• commande de plusieurs dispositifs, ou de dis- 
positifs separes comme un telephone de voitu- 
re, un autoradio (eventuellement a cassette, 
changeur de CD, systeme audio), un systeme 
de navigation, le teleappel, un moniteur embar- 
que, un systeme de climatisation, le chauffage, 
une ordinateur de voyage, I'eclairage, un toit 
ouvrant, un leve-vitre, une unite de reglage de 
siege ; 

• la verification d'informations de parametres, 
comme la pression et la temperature d'huile, la 
temperature de I'eau de refroidissement, la 
consommation, la pression des pneus ; 

• des informations concernant des actions ne- 
cessaires, par exemple dans le cas d'une tem- 
perature d'eau de refroidissement trop elevee, 
une pression des pneus trop basse ; 

• avertir le conducteur de defauts dans le vehi- 
cule. 



40. Procede selon la revendication 39, caracterise en 
ce que la selection par commande vocale d'un nou- 
vel emetteur pour I'autoradio se fait a I'aide d'une 
des sequences suivantes : 

5 

• instruction pour une recherche ascendante ou 
descendante ; 

• entree vocale de la frequence de I'emetteur, de 
preference sous forme de langage normal, de 

w preference avec une indication de la 

frequence ; 

• entree vocale du nom normal de I'emetteur. 

41. Procede selon la revendication 39, caracterise en 
15 ce que, pour le systeme de climatisation, la tempe- 
rature souhaitee peut etre definie de maniere rela- 
tive et/ou de preference de maniere absolue par en- 
tree vocale et, de preference et en outre, une tem- 
perature minimale, maximale ou moyenne ou une 

20 temperature normale peut faire I'objet d'une instruc- 
tion. 

42. Procede selon la revendication 39, caracterise en 
ce qu'un lieu de destination (nom de lieu, nom de 

25 route) est notifie au systeme de navigation par en- 
tree de chaTnes de lettres dans le « mode 
d'epellation », le debut du nom de preference ega- 
lement etant suffisant comme entree, et le systeme 
de navigation offrant, si necessaire, un certain nom- 

30 bre de candidats en vue d'une selection. 

43. Procede selon I'une des revendications 39 a 42, ca- 
racterise en ce qu'une ou plusieurs des listes de 
noms specifiques a I'utilisateur suivantes sont 

35 creees : 

• liste pour stocker des numeros de telephone 
sous des noms/abreviations pouvant etre pre- 
determines, 

40 • liste pour stocker des destinations pour le sys- 
teme de navigation sous des noms/abrevia- 
tions pouvant etre predetermines, 

• liste pour stocker des noms de fonctions pour 
des instructions ou des sequences d'instruc- 

45 tions, 

• liste pour stocker des frequences d'emetteurs 
pour I'autoradio sous des noms d'emetteurs ou 
des abreviations pouvant etre predetermines. 

so 44. Procede selon I'une des revendications 39 a 43, ca- 
racterise en ce que le volume de sortie de la sortie 
vocale et du son de controle ou des sons de con- 
trole et, eventuellement, egalement le volume de la 
radio, sont definis ou accordes de maniere adapta- 

55 tive en tenant compte d'un ou de plusieurs parame- 
tres parmi les parametres suivants : 

• vitesse du vehicule 
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• position de reglage du ventilateur 

• vitesse du moteur 

• degre d'ouverture des fenetres et du toit 
ouvrant 

• type de vehicule 5 

• importance de la sortie vocale dans la situation 
de dialogue respective. 

45. Procede selon Tune des revendications 22 a 44, ca- 
racterise en ce que la touche de type « appuyer 10 
pour parler » 

• soit execute ou comporte des fonctions multi- 
ples, par exemple (« raccrocher le combine », 

« decrocher le combine ») lorsqu'on telephone 15 
ou lorsqu'on recommence le systeme de dialo- 
gue vocal ou met fin a un processus de nume- 
rotation telephonique, 

• soit est completee par un commutateur supple- 
mentaire ou une position de commutation sup- 20 
plementaire qui, par exemple, permet de re- 
commencer une fonction ou d'y mettre fin. 

46. Appareil pour mettre en oeuvre le procede selon 
Tune des revendications precedentes, dans lequel 25 
une unite d'entree/sortie vocale est branchee, via 
une unite de pretraitement des signaux vocaux, a 
une unite de reconnaissance vocale, laquelle est a 
son tour branchee a une commande de sequences, 

de dialogue et d'interface, caracterise en ce que 30 
I'unite de reconnaissance vocale comprend une 
unite de reconnaissance de combinaisons de mots 
independante du locuteur et une unite de recon- 
naissance vocale supplemental dependant du lo- 
cuteur, les cotes sortie de ces deux unites etant 35 
branches a une unite de posMraitement syntaxo- 
grammatical ou semantique, laquelle est branchee 
a la commande de sequences, de dialogue et d'in- 
terface. 

40 

47. Appareil selon la revendication 46, caracterise en 
ce que I'unite de pretraitement des signaux vocaux 
contient un appareil de reduction du bruit et/ou un 
appareil de compensation d'echo et/ou un appareil 

de segmentation. 45 

48. Appareil selon I'une des revendications 46 ou 47, 
caracterise en ce que I'unite d'entree/sortie vocale 
contient un codeur vocal, un decodeur vocal et une 
memoire vocale. so 

49. Appareil selon I'une des revendications 46 a 48, ca- 
racterise en ce que la commande de sequences, 
de dialogue et d'interface, Pentree/sortie vocale et 

le pretraitement des signaux vocaux, la reconnais- 55 
sance vocale, le post-traitement syntaxo-gramma- 
tical et semantique sont mis en oeuvre au moyen 
de microprocesseurs et de processeurs de signaux, 



de memoires et de modules d'interface, mais pre- 
ferablement avec un seul processeur de signaux ou 
microprocesseur numerique ainsi qu'avec la me- 
moire de donnees et de programmes externe ne- 
cessaire, les interfaces et les modules de gestion 
associes, un generateur d'horloge, une logique de 
commande et les microphones et hauts-parleurs 
necessaires aux entrees/sorties vocales, conjointe- 
ment avec des transducteurs et amplificateurs as- 
socies et, si necessaire, une touche du type 
« appuyer pour parler » (PTT) et une touche de fin. 

50. Appareil selon la revendication 49, caracterise en 
ce que, via une ou plusieurs interfaces, 

• des donnees et/ou parametres peuvent etre 
charges ou recharges afin, par exemple, de 
mettre en oeuvre des changements de prece- 
des ou un systeme de dialogue vocal pour un 
autre langage, 

• la structure syntaxique, la structure de dialo- 
gue, la commande de sequences et la sortie vo- 
cale, etc. qui sont definies ou modifiees sur un 
ordinateur distinct, sont transferees vers le sys- 
teme de dialogue vocal (« editeur de dialogue 
hors ligne »), 

• des informations d'etat ou de diagnostic peu- 
vent etre demandees et extraites du systeme 
de dialogue vocal. 

51. Appareil selon la revendication 49, caracterise en 
ce que cet appareil est relie par un systeme de bus 
ou un reseau en anneau a un certain nombre des 
dispositifs a actionner, et en ce que des donnees 
de commande et/ou des signaux audio et/ou des 
messages d'etat relatifs au systeme de dialogue vo- 
cal et/ou aux dispositifs a commander sont transmis 
via ce bus ou ce reseau. 

52. Appareil selon I'une des revendications 46 a 51 des- 
tine a etre utilise dans des vehicules, caracterise 
en ce que les dispositifs individuels a actionner ne 
contiennent pas chacun leur propre systeme de dia- 
logue vocal, mais sont commandes a partir d'un 
seul systeme de dialogue vocal commun. 

53. Appareil selon I'une des revendications 46 a 52, ca- 
racterise en ce qu'il existe une ou plusieurs inter- 
faces pour des composants de vehicule ou des or- 
dinateurs de vehicule, via lesquelles des donnees 
permanentes ou actualisees du vehicule, comme la 
vitesse, sont notifiees au systeme de dialogue vo- 
cal. 

54. Appareil selon I'une des revendications 46 a 53, ca- 
racterise en ce que cet appareil execute d'autres 
fonctions liees, par exemple, a la radio, au telepho- 
ne ou assimifes, durant les temps d'attente pendant 
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lesquels il n'y a pas d'entree ou de sortie vocale. 

55. Appareil selon Tune des revendications 46 a 54, ca- 
racterise en ce qu'un systeme de dialogue multi- 
lingue independant du locuteur est fourni au moyen 5 
d'une memoire elargie, avec la possibility de com- 
muter entre les systemes de dialogue de differentes 
langues. 

56. Appareil selon Tune des revendications 46 a 55, ca- 10 
racterise en ce qu'un affichage visuel est couple 

au systeme de dialogue vocal via une interface spe- 
ciale ou via la connexion par bus. 

57. Appareil selon Tune des revendications 46 a 56, ca- * 5 
racterise en ce que le systeme de dialogue vocal 
tout entier est couple via une interface PCMCIA au 
dispositif appele a etre actionne ou commande par 

la voix, et/ou a un ordinateur note ou duplication. 

20 

58. Appareil selon la revendication 51 ou 57, caracte- 
rise en ce que ce bus ou ce reseau est un bus de 
donnees optique, et des signaux de commande et 
audio et/ou des messages d'etat pour le systeme 

de dialogue vocal et les dispositifs a commander 25 
sont transmis via ce bus de donnees. 
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